摘要:最近,冠状病毒、COVID-19 和 H1N1 等引起肺炎的病毒在全球范围内蔓延,已经危及世界各地人类的生命。为了为开发抗病毒药物提供有用的线索,解剖治疗化学品的信息至关重要。鉴于此,开发了一种基于 CNN 的预测器,称为“iATC_Deep-mISF”。预测器在处理多标签系统时特别有用,其中一些化学品可能出现在两个或更多不同的类别中。为了最大限度地方便大多数实验科学家,我们在http://www.jci-bioinfo.cn/iATC_Deep-mISF/上建立了一个用户友好的新预测器网络服务器,这将成为开发有效药物对抗流行性冠状病毒和拯救地球人类的非常有力的工具。
关键词
大流行性冠状病毒,多标签系统,解剖治疗化学品,更深层次的学习,五步法则
一、简介
根据 ATC(解剖治疗化学)系统(http://www.whocc.no/atc/structure_and_principles)按照WHO(世界卫生组织)的推荐,药物化合物分为以下14大类:1)消化道和代谢;2)血液和造血器官;3)心血管系统;4) 皮肤病学;5)泌尿生殖系统和性激素;6) 全身性激素制剂,不包括性激素和胰岛素;7) 全身使用的抗感染药;8) 抗肿瘤剂和免疫调节剂;9) 肌肉骨骼系统;10) 神经系统;11) 抗寄生虫产品、杀虫剂和驱虫剂;12) 呼吸系统;13) 感觉器官;14) 各种。给定一个未表征的化合物,我们能否确定它属于哪个 ATC 类别?对于基础研究和药物开发来说,这无疑是一个重大问题。
2017年,开发出强大的预测器“iATC-mISF”,压倒性地优于同类产品。但是该方法还没有被深度学习进一步处理,这是一种非常强大的技术 [ 1 ] [ 2 ]。本研究致力于这样做。
根据 5 步指南 [ 3 ] 并在最近的一系列出版物中展示(参见,例如 [ 4 ] [ 5 ]),开发一种统计预测器,不仅可以让实验科学家轻松使用,而且可以刺激理论科学家要开发更多相关的,我们应该明确以下五个步骤:1)基准数据集,2)样本制定,3)操作算法,4)预期精度,5)网络服务器。下面,我们将一一阐述如何处理这些程序。
2。材料和方法
2.1。基准数据集
本研究使用的基准数据集与 iATC-mSMF [ 6 ]中的完全相同;IE,
小号=小号1∪小号2∪ ⋯ ∪小号米∪ ⋯ ∪小号13∪小号14(1)
其中子集 小号米仅包含来自第 m 个 ATC 类的样本 ( m = 1 , 2 , 3 , ⋯ , 14 ) ,和 ∪表示集合论中“并集”的符号。根据公式 (1) 中的 14 个子集,请参阅在线支持信息 S2,了解基准数据集的细分。
2.2. 为三个更深层次安装深度学习
在本研究中,我们使用多层感知器神经网络模型,该模型由 3 个全连接层组成,用于预测多标签 ATC 类的类别,如图 1 所示. 我们用 14 个神经 unGranits 设置输入层,对应 14 个特征。太多的隐藏层会使网络复杂度更大,并且在构建模型时会遇到梯度消失问题。这里只包括两个隐藏层。隐藏层 1 设置为 200 个神经单元。激活函数设置为“relu”。第二个隐藏层有 100 个神经单元。激活函数设置与隐藏层 1 相同。我们以 14 个神经单元和 sigmoid 激活结束模型。为此,我们使用 binary_crossentropy 损失和 adam(自适应矩估计)优化器来训练模型。指标设置为“准确度”。batch size设置为28,epochs为100。预测结果
图 1。显示具有 3 个全连接层的密集神经网络的插图。经许可改编自 [ 1 ]。
由阈值 θ 的输出决定。如果输出大于 0.5,则结果为真;否则为假。有关这方面的更多信息,请参见[ 1 ],其中已经详细阐述了详细信息,因此无需在此重复。
通过上述程序开发的新预测器称为“iATC_Deep-mISF”,其中“iATC_Deep”代表“预测解剖治疗化学品”,“mISF”代表“多标签类别”。
3。结果与讨论
根据 5 步规则 [ 3 ],开发新预测器的重要程序之一是如何正确评估其预期准确性。为了解决这个问题,需要考虑两个问题。1)应该使用哪些指标来定量反映预测器的质量?2) 应该使用什么测试方法对指标进行评分?
3.1。多标签系统的一组五个指标
与用于衡量单标签系统预测质量的指标不同,多标签系统的指标要复杂得多。为了让大多数实验科学家更直观和更容易理解,这里我们使用以下直观的 Chou 的五个指标 [ 7 ] 或最近广泛用于研究各种多标签系统的“全局指标”(参见,例如, [ 8 ] [ 9 ])。对于当前的研究,全局指标集可以表述为:
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪瞄准↑⏐⏐⏐⏐ =1ñq∑ñqk = 1(∥大号ķ∩大号*ķ∥∥大号*ķ∥) ,[0,1] 覆盖范围↑⏐⏐⏐⏐ =1ñq∑ñqk = 1(∥大号ķ∩大号*ķ∥∥大号ķ∥) ,[0,1] 准确性↑⏐⏐⏐⏐ =1ñq∑ñqk = 1(∥大号ķ∩大号*ķ∥∥大号ķ∪大号*ķ∥) ,[0,1] 绝对真实↑⏐⏐ =1ñq∑ñqk = 1Δ (大号ķ,大号*ķ) ,[0,1] 绝对错误⏐↓⏐⏐⏐ =1ñq∑ñqk = 1(∥大号ķ∪大号*ķ∥ - ∥大号ķ∩大号*ķ∥米) ,[1,0] (2)
在哪里 ñq是查询蛋白质或测试蛋白质的总数,M 是研究系统的不同标签的总数(对于当前研究,它是 大号细胞= 4), ∥∥指对其中的集合进行操作以计算其元素数量的运算符, ∪表示集合论中“并集”的符号, ∩表示“交叉点”的符号, 大号ķ表示包含第 k 个测试样本的实验观察到的所有标签的子集, 大号*ķ表示包含为第 k 个样本预测的所有标签的子集,并且
Δ (大号ķ,大号*ķ) = {1 、如果所有标签在_ 大号*ķ 与中的相同_ 大号ķ0 ,否则 (3)
在等式 (4) 中,前四个带有上箭头的指标 ↑被称为正指标,这意味着比率越大,预测质量就越好;带有向下箭头的第5个指标称为正指标,其含义正好相反。
从方程(2)我们可以看出:1)第一个子方程定义的“Aiming”用于检查正确预测的标签相对于实际预测的标签的比率或百分比;2)第二个子方程中定义的“覆盖率”用于检查相关系统中正确预测的标签与实际标签的比率;3)第三个子方程中的“准确率”用于检查正确预测的标签与总标签的平均比率,包括正确和错误预测的标签以及那些在预测中遗漏的真实标签;4) 4 th中的“绝对真实”子方程用于检查完全正确或完全正确的预测事件与总预测事件的比率;5) 第 5 个子方程中的“绝对错误”用于检查完全错误预测与总预测事件的比率。
3.2. 与最先进的预测器的比较
表 1中列出的是当前 iATC_Deep-mISF 预测器通过在相同的实验确认数据集上的交叉验证实现的速率
预测器 |
瞄准 ()一个 |
覆盖范围 ()一个 |
准确性 ()一个 |
绝对真() a | 绝对错误 (¯) a |
iATC-mISF | 67.83% | 67.10% | 66.41% | 60.98% | 5.85% |
iATC_Deep-mISF c | 74.7% | 73.91% | 71.57% | 67.01% | 0% |
表 1。与预测 iATC-mISF a的最先进方法的比较。
a度量的定义见公式 (2)。b参见 [ 6 ],其中报告的指标率是通过对仅包含实验确认的蛋白质的支持信息 S1 的基准数据集进行折刀测试获得的。c建议的预测器;以确保测试是在与 [ 6 ] 中报告的 iATC-mISF完全相同的实验数据上进行的。
在[ 6 ]中使用。为了便于比较,还列出了由 iATC-mISF 预测器 [ 6 ] 获得的相应结果,这是现有最强大的预测解剖治疗化学品类别的方法。如表 1所示,新提出的预测器 iATC_Deep-mISF 在所有五个指标上都明显优于现有的最先进的预测器 iATC-mISF。特别是,从表中可以看出,新预测器实现的绝对真实率超过 67%,比 iATC-mISF [ 6 ] 高出约 7%。这是因为要提高多标签系统的预测方法的绝对真实率是极其困难的,正如 [ 6]。实际上,为了避免尴尬,许多研究人员甚至选择不提及在处理多标签系统时的绝对真实率指标(例如,参见 [ 10 ] [ 11 ])。
同时,作为副产品,本论文还激发了一些非常有趣或激怒的论文(例如,参见[ 12 ]-[ 17 ])。
3.3. Web 服务器和用户指南
正如 [ 18 ]中所指出的,用户友好且可公开访问的 Web 服务器代表了开发实际更有用的预测器的未来方向。实际上,用户友好的网络服务器将显着增强理论工作的影响,因为它们可以吸引广泛的实验科学家[ 19 ]。有鉴于此,目前 iATC_Deep-mISF 预测器的 web-server 也已经建立在http://www.jci-bioinfo.cn/iATC_Deep-mISF/,用户可以通过它轻松获得所需的数据而无需遍历数学细节。
4。结论
预计 iATC_Deep-mISF 预测器具有非常高的潜力,可以成为识别解剖治疗化学品类别的有用的高通量工具。最重要的是,该预测器将成为对抗冠状病毒以拯救地球上人类的非常有用的工具。
致谢
这项工作得到了国家自然科学基金 (No. 31560316、61261027、61262038、61202313 和 31260273)、江西省国家自然科学基金 (No. 20132BAB201053)、江西省外国科技基金的资助。江西省教育厅合作项目(No.20120BDH80023)(GJJ160866)。
利益冲突
作者声明与本文的发表没有利益冲突。
参考
[ 1 ] Maxwell, A.、Li, R.、Yang, B.、Weng, H.、Ou, A.、Hong, H.、Zhou, Z.、Gong, P. 和 Zhang, C. (2017) 深度学习架构用于智能健康风险预测的多标签分类。BMC 生物信息学, 18, 523.
[ 2 ] Khan, ZU, Ali, F., Khan, IA, Hussain, Y. 和 Pi, D. (2019) iRSpot-SPI:通过 Chou 的 5 结合二级序列信息和物理化学性质进行基于深度学习的重组点预测-步骤规则和伪组件。化学计量学和智能实验室系统 (CHEMOLAB), 189, 169-180。
[ 3 ] Chou, KC (2011) Some Remarks on Protein Attribute Prediction and Pseudo Amino Acid Composition (50th Anniversary Year Review, 5-Steps Rule)。理论生物学杂志,273、236-247。
[ 4 ] Jia, J.、Liu, Z.、Xiao, X.、Liu, B. 和 Chou, KC (2016) iCar-PseCp:通过蒙托卡罗采样识别蛋白质中的羰基化位点并将序列耦合效应纳入一般 PseAAC。Oncotarget, 7, 34558-34570。
[ 5 ] Liu, B.、Long, R. 和 Chou, KC (2016) iDHS-EL:通过将三种不同的假核苷酸组成模式融合到集成学习框架中来识别 DNase I 过敏位点。生物信息学,32, 2411-2418。
[ 6 ] Cheng, X., Zhao, SG, Xiao, X. 和 Chou, KC (2017) iATC-mISF:用于预测解剖治疗化学品类别的多标签分类器。生物信息学,33, 341-346。(勘误,同上,2017 年,第 33 卷,第 2610 页)
[ 7 ] Chou, KC (2013) 关于预测分子生物系统中多标签属性的一些评论。分子生物系统,9,1092-1100。