摘要:最近,冠状病毒、COVID-19 和 H1N1 等引起肺炎的病毒在全球范围内蔓延,已经危及世界各地人类的生命。为了真正了解细胞水平内的生物学过程并为开发抗病毒药物提供有用的线索,革兰氏阴性细菌蛋白质亚细胞定位的信息至关重要。鉴于此,开发了一种基于 CNN 的蛋白质亚细胞定位预测器,称为“pLoc_Deep-mGnet”。该预测器在处理多位点系统时特别有用,其中一些蛋白质可能同时出现在两个或多个不同的细胞器中,这是制药行业当前的重点。新预测器实现的全局绝对真实率超过 98%,其局部准确率在 94% - 100% 左右。两者都显着超越了其他现有的最先进的预测指标。为了最大限度地为大多数实验科学家提供便利,已在http://www.jci-bioinfo.cn/pLoc_Deep-mGneg/,它将成为对抗大流行冠状病毒和拯救地球人类的非常有用的工具。
关键词
大流行性冠状病毒,多标签系统,革兰氏阴性细菌蛋白,更深层次的学习,五步法则, PseAAC
一、简介
了解蛋白质的亚细胞定位对于实现以下两个重要目标至关重要:1) 揭示在细胞水平上调节生物过程的复杂途径 [ 1 ] [ 2 ];2)选择合适的靶点[ 3 ]开发新药。
随着后基因组时代蛋白质序列的雪崩,我们面临着开发计算工具以仅基于序列信息有效识别其亚细胞定位的挑战。
2018 年,开发了一种非常强大的预测器,称为“pLoc_bal-mGneg”[ 4 ],用于仅根据其序列信息预测革兰氏阴性细菌蛋白的亚细胞定位。它具有以下显着优点。1) 大多数现有的蛋白质亚细胞定位预测方法都是基于单标记系统开发的,其中假设每个组成蛋白质都有一个,并且只有一个亚细胞定位(参见,例如,[ 5 ] [ 6 ] [ 7 ]以及一篇评论论文中引用的一长串参考文献 [ 8])。然而,随着更多的实验数据被发现,蛋白质在细胞中的定位实际上是一个多标记系统,其中一些蛋白质可能同时出现在两个或多个不同的位置位点。这种复合蛋白往往具有一些特殊的功能,值得我们特别注意[ 2 ]。而 pLoc_bal-mGneg 预测器 [ 4 ] 可以覆盖大多数其他方法遗漏的这种重要信息,因为它是基于多标签基准数据集和理论建立的。2) 虽然有一些方法(参见,例如 [ 9 ] [ 10 ])可用于处理蛋白质的多标签亚细胞定位,但 pLoc_bal-mGneg [ 4 ] 实现的预测质量] 压倒性地高,尤其是在绝对真实率方面。3) 虽然 pLoc_bal-mGneg 预测器 [ 4 ] 具有上述优点,但它还没有经过更深层次的训练 [ 11 ] [ 12 ] [ 13 ] [ 14 ]。
本研究旨在解决这个问题。正如 pLoc_bal-mGneg [ 4 ] 以及许多其他最近在开发新预测方法的出版物中所做的那样(例如,参见 [ 15 ] [ 16 ]),遵循 5 步规则 [ 17 ] 的指导方针。它们是关于 1) 基准数据集、2) 样本制定、3) 操作引擎或算法、4) 交叉验证和 5) Web 服务器的详细程序。但在这里,我们的注意力集中在与开发预测器 pLoc_bal-mGneg [ 4 ] 显着不同的程序上。
2。材料和方法
2.1。基准数据集
本研究使用的基准数据集与 pLoc_bal-mGneg [ 4 ]中的完全相同;IE,
小号=小号1∪小号2∪ ⋯ ∪小号你∪ ⋯ ∪小号7∪小号8(1)
在哪里 小号1仅包含来自“细胞内膜”细胞器的革兰氏阴性细菌蛋白质样品(参见表 1), 小号2仅包含来自“细胞壁”的那些,等等; ∪表示集合论中“并集”的符号。为了方便读者,它们的详细序列和登录号(或 ID 代码)在支持信息 S1 中给出,支持信息 S1 也可在http://www.jci-bioinfo.cn/pLoc_bal-mGneg/Supp1.pdf获得,其中没有包含的蛋白质与同一亚组中的任何其他蛋白质具有≥25%的序列同一性(亚细胞位置)。
2.2. 蛋白质样品配方
现在让我们考虑5 步规则的第 2 步 [ 17 ];即,如何用有效的数学表达式来制定生物序列样本,以真实地反映它们与相关目标的本质相关性。给定一个蛋白质序列 P,它最直接的表达是
磷=R1R2R3R4R5R6R7⋯R大号(2)
其中 L 表示蛋白质的长度或其组成氨基酸残基的数量, R1是第一个残基, R2第 2 个残基, R3第三个残基,以此类推。由于所有现有的机器学习算法} 只能处理 [ 3 ] 中详述的向量,因此必须将蛋白质样本从其顺序表达(等式(2))转换为向量。但是在离散模型中定义的向量可能会完全遗漏所有序列顺序或模式信息。为了解决这个问题,已经提出了伪氨基酸组合物 [ 18 ] 或 PseAAC [ 19 ]。从那时起,“伪氨基酸组成”的概念已被广泛用于计算蛋白质组学的几乎所有领域,旨在掌握对所研究的目标至关重要的各种不同的序列模式(参见,例如,[ 20 ][ 21] 以及 [ 22 ] 中引用的一长串参考文献)。同时,由于它被广泛和越来越多地使用,四个强大的开放访问软件,称为“PseAAC”[ 23 ]、“PseAAC-Builder”[ 24 ]、“propy”[ 25 ]和“PseAAC-General”[ 26 ],成立:前三个是用于生成特殊PseAAC的各种模式[ 27 ];而一般 PseAAC的第4个[ 17],不仅包括蛋白质特征向量的所有特殊模式,还包括“功能域”模式、“基因本体”模式、“序列进化”或“PSSM”模式等更高层次的特征向量。受到使用 PseAAC 处理蛋白质/肽序列的成功的鼓舞,其思想和方法扩展到 PseKNC(Pseudo K-tuple Nucleotide Composition),为 DNA/RNA 序列 [ 28 ] 生成各种特征向量,这些特征向量已被证明非常成功好(例如,参见 [ 29 ] [ 30 ])。
根据通用 PseAAC [ 17 ] 的概念,任何蛋白质序列都可以表示为由下式给出的 PseAAC 载体
磷=[Ψ1Ψ2⋯Ψ你⋯ΨΩ]吨(3)
其中 T 是转置运算符,而整数 Ω是一个参数及其值以及组件 Ψ你 ( u = 1 , 2 , ⋯ , Ω)将取决于如何从 P 的氨基酸序列中提取所需的信息,如 [ 4 ] 中所述。因此,通过遵循与 [ 4 ]的第 2.2 节中描述的完全相同的程序,基准数据集中的每个蛋白质样本都可以唯一地定义为支持信息 S2 中给出的 8-D 数值向量,也可以是直接在http://www.jci-bioinfo.cn/pLoc_bal-mGneg/Supp2.pdf下载。
2.3. 为三个更深层次安装深度学习
在本研究中,我们使用多层感知器神经网络模型,该模型由 3 个全连接层组成,用于预测多标签人类蛋白质的亚细胞定位,如图 1 所示. 我们设置输入层有 14 个神经单元,对应 14 个特征。隐藏层过多会使网络复杂度变大,并且在构建模型时会出现梯度消失问题。这里只包含两个隐藏层。隐藏层 1 设置为 200 个神经单元。激活函数设置为“relu”。第二个隐藏层有 100 个神经单元。激活函数设置与隐藏层 1 相同。我们以 14 个神经单元和 Sigmoid 激活结束模型。为此,我们使用 binary_crossentropy 损失和 adam(自适应矩估计)优化器来训练模型。指标设置为“准确度”。批量大小设置为 28,epochs 为 100。预测结果由阈值 θ 的输出决定。如果输出大于 0.5,则结果为真;否则,错误的。有关这方面的更多信息,请参阅 [11 ],细节已经很清楚了,在此不再赘述。
通过上述程序开发的新预测器称为“pLoc_Deep-mGneg”,其中“pLoc_Deep”代表“通过深度学习预测亚细胞定位”,“mGneg”代表“多标签革兰氏阴性蛋白”。
3。结果与讨论
根据 5 步规则 [ 17 ],开发中的重要程序之一
图 1。显示具有 3 个全连接层的密集神经网络的插图。经许可改编自 [ 11 ]。
一个新的预测器是如何正确评估其预期的准确性。为了解决这个问题,需要考虑两个问题。1)应该使用哪些指标来定量反映预测器的质量?2) 应该使用什么测试方法对指标进行评分?
3.1。多标签系统的一组五个指标
与用于衡量单标签系统预测质量的指标不同,多标签系统的指标要复杂得多[ 31 ]。为了让大多数实验科学家更直观和更容易理解,这里我们使用以下直观的 Chou 的五个指标 [ 32 ] 或最近广泛用于研究各种多标签系统的“全局指标”(参见,例如, [ 33 ] [ 34 ])。对于当前的研究,全局指标集可以表述为:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪瞄准↑⏐⏐⏐⏐ =1ñq∑ñqk = 1(∥大号ķ∩大号*ķ∥∥大号*ķ∥) ,[0,1] 覆盖范围↑⏐⏐⏐⏐ =1ñq∑ñqk = 1(∥大号ķ∩大号*ķ∥∥大号ķ∥) ,[0,1] 准确性↑⏐⏐⏐⏐ =1ñq∑ñqk = 1(∥大号ķ∩大号*ķ∥∥大号ķ∪大号*ķ∥) ,[0,1] 绝对真实↑⏐⏐ =1ñq∑ñqk = 1Δ (大号ķ,大号*ķ) ,[0,1] 绝对错误⏐↓⏐⏐⏐ =1ñq∑ñqk = 1(∥大号ķ∪大号*ķ∥ - ∥大号ķ∩大号*ķ∥米) ,[1,0] (4)
在哪里 ñq是查询蛋白质或测试蛋白质的总数,M 是研究系统的不同标签的总数(对于当前研究,它是 大号细胞= 8), ∥∥指对其中的集合进行操作以计算其元素数量的运算符, ∪表示集合论中“并集”的符号, ∩表示“交叉点”的符号, 大号ķ表示包含第 k 个测试样本的实验观察到的所有标签的子集, 大号*ķ表示包含为第 k 个样本预测的所有标签的子集,并且
Δ (大号ķ,大号*ķ) = {1 、如果所有标签在_ 大号*ķ 与中的相同_ 大号ķ0 ,否则 (5)
在等式 (4) 中,前四个带有上箭头的指标 ↑被称为正指标,这意味着比率越大,预测质量就越好;带有向下箭头 的第5个指标↓被称为负面指标,意味着相反的含义。
从方程(4)我们可以看出:1)第一个子方程定义的“瞄准”用于检查正确预测的标签相对于实际预测的标签的比率或百分比;2)第二个子方程中定义的“覆盖率”用于检查相关系统中正确预测的标签与实际标签的比率;3)第三个子方程中的“准确率”用于检查正确预测的标签与总标签的平均比率,包括正确和错误预测的标签以及那些在预测中遗漏的真实标签;4) 4 th中的“绝对真实”子方程用于检查完全正确或完全正确的预测事件与总预测事件的比率;5) 第 5 个子方程中的“绝对错误”用于检查完全错误预测与总预测事件的比率。
3.2. 与最先进的预测器的比较
表 1中列出了当前 pLoc_Deep-mGneg 预测器通过在 [ 4 ] 中使用的相同实验确认数据集上的交叉验证实现的速率。为了便于比较,还列出了 pLoc_bal-mGneg [ 4 ] 获得的相应结果,pLoc_bal-mGneg [ 4 ] 是识别革兰氏阴性蛋白亚细胞定位的现有最强大的预测因子,具有单个和多个定位位点。如表1所示,新提出的预测器 pLoc_Deep-mGneg 在所有五个指标中都明显优于现有的最先进的预测器 pLoc_bal-mGneg。特别是,从表中可以看出,新预测器实现的绝对真实率超过 98%,这远远超出了任何其他现有方法的范围(例如,参见 [ 35 ] [ 36 ] [ 37 ]) . 这是因为要提高多标签系统的预测方法的绝对真实率是极其困难的,正如 [ 4 ] 中清楚阐明的那样。实际上,为了避免尴尬,许多研究人员甚至选择不提及在处理多标签系统时的绝对真实率指标(例如,参见 [ 38 ] [ 39 ])。
此外,为了深入检查每个相关亚细胞位置中蛋白质的新预测因子的预测质量(参见表 2),我们使用了一组四个直观的指标,这些指标基于 Chou 的[ 40 ]引入用于研究蛋白质信号肽的符号 [ 41 ] 并且此后已被广泛同意或证明是合理的(例如,参见 [ 42 ] [ 43 ])。对于当前的研究,一组指标可以表述为:
预测器 | 瞄准()一个 |
覆盖范围 ()一个 |
准确性 ()一个 |
绝对真() a | 绝对错误 (¯) a |
pLoc_bal-mGneg b | 97.07% | 97.8% | 97.27% | 96.55% | 0.19% |
pLoc_Deep-mGneg c | 98.52% | 98.64% | 98.40% | 98.02% | 00.00% |
表 1。与预测革兰氏阴性蛋白亚细胞定位的最新方法的比较。
a度量的定义见公式 (4)。b参见 [ 4 ],其中报告的指标率是通过对仅包含实验确认的蛋白质的支持信息 S1 的基准数据集进行折刀测试获得的。c建议的预测器;确保测试是在与 [ 4 ] 中报告的 pLoc_bal-mGneg 完全相同的实验数据上进行的。
一世 | 位置a | 锡(一)乙 | Sp( i ) b | 累加(一)乙 | MCC( i ) b |
1 | 细胞内膜 | 0.9805 | 0.9910 | 0.9882 | 0.9709 |
2 | 细胞外膜 | 0.9465 | 0.9989 | 0.9921 | 0.9648 |
3 | 细胞质 | 0.9707 | 0.9896 | 0.9842 | 0.9616 |
4 | 细胞外 | 0.9786 | 0.9976 | 0.9951 | 0.9807 |
5 | 伞菌 | 0.9333 | 0.9985 | 0.9961 | 0.9358 |
6 | 鞭毛 | 1.0000 | 1.0000 | 1.0000 | 1.0000 |
7 | 类核素 | 1.0000 | 1.0000 | 1.0000 | 1.0000 |
8 | 周质 | 0.9814 | 0.9988 | 0.9956 | 0.9852 |
表 2。pLoc_Deep-mGneg 对 8 个亚细胞位置中的每一个的性能。
a请参阅公式 (1) 和相关上下文以及支持信息 S1 以获得进一步解释。b度量定义见公式 (6)。
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪锡(我) = 1 -ñ+-(一)ñ+(一) 0≤锡≤1 _ _Sp ( i ) = 1 -ñ-+(一)ñ-(一) 0≤Sp≤1 _ _ _ _Acc ( i ) = 1 -ñ+-(一) +ñ-+(一)ñ+(一) +ñ-(一) 0 ≤加速≤ 1中冶( i ) =1 - (ñ+-(一)ñ+(一)+ñ-+(一)ñ-(一))( 1 +ñ-+(一) -ñ+-(一)ñ+(一)) ( 1 +ñ+-(一) -ñ-+(一)ñ-(一))√ − 1 ≤ MCC ≤ 1(我= 1 , 2 , ⋯ , 8 )(6)
其中 Sn、Sp、Acc 和 MCC 分别表示灵敏度、特异性、准确性和 Mathew 相关系数,i 表示基准数据集中的第 i 个亚细胞位置(或子集)。 ñ+(一)是在第 i 个子集中研究的样本总数,而 ñ+-(一)是样本数 ñ+(一)被错误地预测为其他位置的; ñ-(一)是任何位置但不是第 i 个位置的样本总数,而 ñ-+(一)是样本数 ñ-(一)被错误地预测为第 i 个位置。
表 2中列出了 pLoc_Deep-mGneg 对 8 个亚细胞位置中每个位置的革兰氏阴性蛋白的结果。从表中我们可以看出,新的革兰氏阴性蛋白预测因子在 8 个亚细胞位置中的每一个中实现的几乎所有成功率都在 90% - 100% 的范围内,这再次远远超出了它的任何对应物。
同时,作为副产品,本论文还激发了一系列颇具挑衅性但非常有趣的论文(例如,参见[ 44 ]-[ 49 ])。
3.3. Web 服务器和用户指南
正如 [ 50 ]中所指出的,用户友好且可公开访问的 Web 服务器代表了开发实际更有用的预测器的未来方向。实际上,用户友好的网络服务器将显着增强理论工作的影响,因为它们可以吸引广泛的实验科学家 [ 22 ]。鉴于此,当前 pLoc_Deep-mGneg 预测器的 web-server 也已建立在http://www.jci-bioinfo.cn/pLoc_Deep-mGneg/,用户可以通过它轻松获得所需的数据而无需遍历数学细节。
4。结论
预计 pLoc_Deep-mGneg 预测器具有非常高的潜力,可以成为识别革兰氏阴性细菌蛋白亚细胞定位的有用的高通量工具,特别是用于寻找目前药物开发中非常热门的多靶点药物。最重要的是,该预测器将成为对抗冠状病毒以拯救地球上人类的非常有用的工具。
致谢
这项工作得到了国家自然科学基金 (No. 31560316、61261027、61262038、61202313 和 31260273)、江西省国家自然科学基金 (No. 20132BAB201053)、江西省外国科技基金的资助。江西省教育厅合作项目(No.20120BDH80023)(GJJ160866)。
利益冲突
作者声明与本文的发表没有利益冲突。
参考
[ 1 ] Ehrlich, JS, Hansen, MD 和 Nelson, WJ (2002) 上皮细胞-细胞粘附过程中 Rac1 定位和片状伪足动力学的时空调节。发育细胞,3,259-270。
[ 2 ] Glory, E. 和 Murphy, RF (2007) 自动亚细胞定位和高通量显微镜。发育细胞,12、7-16。
[ 3 ] Chou, KC (2015) 生物信息学对药物化学的影响。药物化学,11,218-234。
[ 4 ] Cheng, X.、Xiao, X. 和 Chou, KC (2018) pLoc_bal-mGneg:通过准平衡训练数据集和通用 PseAAC 预测革兰氏阴性细菌蛋白的亚细胞定位。理论生物学杂志,458,92-102。
[ 5 ] Nakai, K. 和 Kanehisa, M. (1992) 预测真核细胞中蛋白质定位位点的知识库。基因组学,14,897-911。
[ 6 ] Cedano, J., Aloy, P., Perez-Pons, JA 和 Querol, E. (1997) 氨基酸组成与蛋白质细胞定位之间的关系。分子生物学杂志,266, 594-600。
[ 7 ] Reinhardt, A. 和 Hubbard, T. (1998) 使用神经网络预测蛋白质的亚细胞位置。核酸研究,26, 2230-2236。