作者:粉红色头发丫头_960 | 来源:互联网 | 2023-10-17 19:16
本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote
本博文根据《Amalgamation of protein sequence, structure and textual information for improving protein-protein interaction identification》这篇文章进行了说明。 这篇文章发表在2020篇ACL上,作者是印度理工大学计算机科学与工程系的两位研究生,主要工作是构建包含文本、基因序列和蛋白结构三种模式的PPI数据集。 另外,作者建立了处理这三种模式数据的模型,并对PPI进行了预测。 最后,作者通过大量的实验证明了自己建立模型的有效性。
一、了解任务背景蛋白质间相互作用(PPI )对理解翻译、蛋白质功能、基因功能、代谢途径等不同生物学过程至关重要。 PPI信息有助于研究者发现疾病机制,在设计治疗药物中发挥重要作用。 近年来,大量蛋白质-蛋白质相互作用信息以非结构化文本形式发表在科学文献上。 这几年,生物医学出版物的数量呈指数增长。 因此,迫切需要开发智能信息提取系统,帮助生物学家管理和维护PPI数据库,这种迫切的需求促使生物医学自然语言处理(BioNLP )研究者探索各种AI技术,自动提取PPI信息与传统的基于模态的模型相比,多模态信息相结合的深度学习模型显示出更好的结果,同时解决了情感识别、自然语言生成、图像字幕、机器翻译等各种NLP任务。 与基于单模态的方法相比,多模态技术为数据集提供了更全面的视角。
虽然多模态方法很受欢迎来解决传统的NLP任务,但BioNLP缺乏多模态数据集,尤其是对于PPI识别任务,可用的PPI基准数据集仅包含不同蛋白质对的文本知识,而Tata 因此,不仅是文本信息,结合分子结构和潜在的基因组序列也有助于理解蛋白质相互作用的机制。 但是,多模态体系结构的概念在BioNLP领域没有得到深入的研究。
二、主要内容本文的主要动机是为PPI识别任务生成多模态数据集。 作者不仅收集了生物医学文献中存在的文本信息,还收集了蛋白质结构信息(3D PDB结构)和基因核苷酸序列(FASTA序列)等文本中潜在的多条光学信息。 作者主要在两个热门的基准PPI语料库BioInfer和HRPD50中,扩展原始文本数据,添加3D蛋白结构和基础基因组序列,生成PPI的多模态数据集。 作者还实现了一种新的深度多模态体系结构,可以有效预测新数据集上蛋白质的相互作用。
1数据预处理作者主要通过两个基准PPI语料库BioInfer和HRPD50进行多模态扩展。 如下图所示,作者取出HRPD50的一个样品,取3354http://www.Sina.com/and http://www.Sina.com/以: multifunctionalendocyticreceptors 3358 www.Sina .为例的and3358www.Sina.com/aretwostructurallydifferentendocyticreceptorsthatinteracttoservesuchfunctions, 3358www.Sina.com/和Megalin是存在于文本中的两个蛋白质实体,它们在文中的位置分别为cubilin和http://www.Sina.com BioInfer和HRPD50是这样处理的。
在扩展形成新数据库时,作者统计了BioInfer和HRPD50中正负样品(蛋白质对)的数量。 如下图所示,可以看出新数据集是不平衡的。
2模型框架本论文整体的模型框架如下图所示,接下来对各模式中使用的模型进行说明。
2.1从文本模式中提取特征
如上图所示,作者利用BioBert提取文本各词的嵌入式,然后连接叠置的BiLSTM进一步提取文本特征,最后得到了整个样本的向量表示。
2.2从基因序列模式中提取特征
如上图所示,输入是与蛋白质相对应的基因序列,序列中的各字符 { A、t、c、G}(a、t、c、g ) ) a、t、c、g ) }。 由于蛋白质分子的分子特性很大程度上取决于核苷酸的序列,作者利用胶囊网络捕获核苷酸之间的空间信息。 首先,作者输入one-hot向量
表示,然后接了三层卷积层提取特征,将提取的特征输入到初级胶囊,得到的输出再输入次级胶囊,最后得到基因序列的表示。 2.3 从蛋白结构模态中提取特征
如上图所示,作者将3D结构表示为节点的特征向量集合和邻接矩阵,然后利用图神经网络GCNN来处理结构这些数据,最后将得到的两个蛋白的特征向量concat在一起,作为最后的输出向量。
2.4 基于attention的多模态融合
从上述的模型中分别得到了文本、序列、结构这三种模态的特征表示之后,作者用Transformer中的自注意力机制将它们整合在一起,得到最后用于分类的向量,如上式,其中 i i i表示第 i i i个样本, W W W表示该样本的模态对应的attention权重,而 F F F表示特征向量。
三、实验分析
作者利用构建的新数据集和模型进行实验,并与多个模型进行对比,包括单模态、模态之间的不同组合以及最先进的方法。
1 对比单模态、模态之间的不同组合
作者将自己的模型进行消融实验,对比单模态、模态之间的不同组合对最终结果的影响,主要包括:
(1)单模态:单文本模态、单序列模块、单结构模态;
(2)双模态:文本+序列模态、文本+结构模态、序列+结构模态;
(3)多模态:文本+序列+结构模态(每个模态用不同于本文方法的模型处理,用的是BioBERT+BiLSTM+CNN,本文用的是BioBERT+BiLSTM+CNN+胶囊网络+GCNN)、文本+序列+结构模态(每个模态用相同于本文方法的模型处理,但是多模态融合不是用attention,而是简单地concat)。
实验的结果如下表所示,表中报告的结果说明了所提出的多模态方法优于其他baselines。
2 对比最先进的方法
在数据集BioInfer和HRPD50上,作者对比多个最先进的模型,如下表:
3 结果讨论
通过分析以上对比研究,可以推断出,作者提出的多模态方法的整体性能超过了其他baselines和现有方法。在baselines模型中,提议的多模态方法优于其单模态和双模态方法。在单模态架构中,结构模态优于其他两个模态,这表明结构模态比文本模态和序列模态更重要。序列模态由于其较大的长度而表现不佳(大多数序列的长度约为10000个核苷酸)。
在双模态的架构中,文本+结构模态的表现超过了其他双模态和单模态,同样,作者提出的多模态结构比双模态有所改进。另外,在多模态模型的对比中,作者提出的模型同样是有提高的,这表明。除了多模态的信息之外,底层的深度模型和多模态融合的技术对改善整体架构的性能都有重要的贡献。
针对BioInfer和HRPD50数据集,作者所提出的多模态体系结构都优于最先进的方法。另外,作者进行了Welch的t检验,以表明通过所提出的模型获得的改进具有统计意义。从上面的比较研究中可以明显看出,作者提出的多模态方法可以有效地识别蛋白质相互作用,并且可以通过不同的方式进一步加以改进。
4 误差分析
作者对分类错误的正样本和负样本进行深入分析之后,推断出下列可能产生错误的原因:
(1)包含大量蛋白质实体的样本会导致分类错误。在HRPD50和BioInfer实例中,最大蛋白质数量分别为26和24。这有很大的错误分类的机会。例如,“Mutations in Saccharomyces cerevisiae RFC5, DPB11, MEC1, DDC2, MEC3, PDS1, CHK1, PDS1, and DUN1 have increased the rate of genome rearrangements up to 200-fold whereas mutations in RAD9, RAD17, RAD24, BUB3, and MAD3 have little effect.”
(2)重复提及相同的蛋白质实体会增加噪音,从而导致上下文信息松散。例如,“Here we demonstrate … CLIP-170 and LIS1 Overexpression of CLIP-170 results … phospho-LIS1 … that CLIP-170 and LIS1 regulate … that LIS1 is a regulated adapter between CLIP-170 … MT dynamics”。
(3)对于序列模态,我们考虑蛋白质的基础FASTA序列。序列的长度从100到10000个核苷酸不等。由于基于深度学习的模型无法处理太长的核苷酸链,因此过大的蛋白质长度会导致分类错误。
四、文章贡献
该论文的主要贡献概括如下:
1、作者对两个已有的文本数据库进行手工标注,拓展成具有多模态信息的两个PPI数据库。
2、作者提出的多模态体系结构使用自注意机制来集成不同模态提取的特征。
3、作者第一次尝试将文本信息和多组学信息结合起来。
4、结果和比较研究证明了作者开发的多模态数据集以及提出的多模态体系结构的有效性。
五、结论和未来工作
在这项工作中,作者通过将蛋白质结构和序列与生物医学文献中现有的文本信息融合在一起,生成了两个多模态的PPI数据库。通过一些示例说明了从PPI语料库生成多模式数据集的过程。此外,作者提出了一种新颖的深度多模态体系结构,用于管理PPI的多模态方案。对于每种模态(文本,基因序列和蛋白质结构),作者开发了不同的深度学习模型来进行有效的特征提取。详细的比较分析证明,提出的多模式体系结构优于其他强大的baselines和现有的模型。
作者希望未来能够增强序列特征提取方法,以提高分类性能,因为从结果来看,它的准确性较低。此外,还有很多选择可以改进多模态融合来增强模型的整体性能。