热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote


本博文根据《Amalgamation of protein sequence, structure and textual information for improving protein-protein interaction identification》这篇文章进行了说明。 这篇文章发表在2020篇ACL上,作者是印度理工大学计算机科学与工程系的两位研究生,主要工作是构建包含文本、基因序列和蛋白结构三种模式的PPI数据集。 另外,作者建立了处理这三种模式数据的模型,并对PPI进行了预测。 最后,作者通过大量的实验证明了自己建立模型的有效性。


一、了解任务背景蛋白质间相互作用(PPI )对理解翻译、蛋白质功能、基因功能、代谢途径等不同生物学过程至关重要。 PPI信息有助于研究者发现疾病机制,在设计治疗药物中发挥重要作用。 近年来,大量蛋白质-蛋白质相互作用信息以非结构化文本形式发表在科学文献上。 这几年,生物医学出版物的数量呈指数增长。 因此,迫切需要开发智能信息提取系统,帮助生物学家管理和维护PPI数据库,这种迫切的需求促使生物医学自然语言处理(BioNLP )研究者探索各种AI技术,自动提取PPI信息与传统的基于模态的模型相比,多模态信息相结合的深度学习模型显示出更好的结果,同时解决了情感识别、自然语言生成、图像字幕、机器翻译等各种NLP任务。 与基于单模态的方法相比,多模态技术为数据集提供了更全面的视角。


虽然多模态方法很受欢迎来解决传统的NLP任务,但BioNLP缺乏多模态数据集,尤其是对于PPI识别任务,可用的PPI基准数据集仅包含不同蛋白质对的文本知识,而Tata 因此,不仅是文本信息,结合分子结构和潜在的基因组序列也有助于理解蛋白质相互作用的机制。 但是,多模态体系结构的概念在BioNLP领域没有得到深入的研究。


二、主要内容本文的主要动机是为PPI识别任务生成多模态数据集。 作者不仅收集了生物医学文献中存在的文本信息,还收集了蛋白质结构信息(3D PDB结构)和基因核苷酸序列(FASTA序列)等文本中潜在的多条光学信息。 作者主要在两个热门的基准PPI语料库BioInfer和HRPD50中,扩展原始文本数据,添加3D蛋白结构和基础基因组序列,生成PPI的多模态数据集。 作者还实现了一种新的深度多模态体系结构,可以有效预测新数据集上蛋白质的相互作用。


1数据预处理作者主要通过两个基准PPI语料库BioInfer和HRPD50进行多模态扩展。 如下图所示,作者取出HRPD50的一个样品,取3354http://www.Sina.com/and http://www.Sina.com/以: multifunctionalendocyticreceptors 3358 www.Sina .为例的and3358www.Sina.com/aretwostructurallydifferentendocyticreceptorsthatinteracttoservesuchfunctions, 3358www.Sina.com/和Megalin是存在于文本中的两个蛋白质实体,它们在文中的位置分别为cubilin和http://www.Sina.com BioInfer和HRPD50是这样处理的。


在扩展形成新数据库时,作者统计了BioInfer和HRPD50中正负样品(蛋白质对)的数量。 如下图所示,可以看出新数据集是不平衡的。


2模型框架本论文整体的模型框架如下图所示,接下来对各模式中使用的模型进行说明。


2.1从文本模式中提取特征


如上图所示,作者利用BioBert提取文本各词的嵌入式,然后连接叠置的BiLSTM进一步提取文本特征,最后得到了整个样本的向量表示。


2.2从基因序列模式中提取特征


如上图所示,输入是与蛋白质相对应的基因序列,序列中的各字符 { A、t、c、G}(a、t、c、g ) ) a、t、c、g ) }。 由于蛋白质分子的分子特性很大程度上取决于核苷酸的序列,作者利用胶囊网络捕获核苷酸之间的空间信息。 首先,作者输入one-hot向量

表示,然后接了三层卷积层提取特征,将提取的特征输入到初级胶囊,得到的输出再输入次级胶囊,最后得到基因序列的表示。

2.3 从蛋白结构模态中提取特征


如上图所示,作者将3D结构表示为节点的特征向量集合和邻接矩阵,然后利用图神经网络GCNN来处理结构这些数据,最后将得到的两个蛋白的特征向量concat在一起,作为最后的输出向量。

2.4 基于attention的多模态融合


从上述的模型中分别得到了文本、序列、结构这三种模态的特征表示之后,作者用Transformer中的自注意力机制将它们整合在一起,得到最后用于分类的向量,如上式,其中 i i i表示第 i i i个样本, W W W表示该样本的模态对应的attention权重,而 F F F表示特征向量。

三、实验分析

作者利用构建的新数据集和模型进行实验,并与多个模型进行对比,包括单模态、模态之间的不同组合以及最先进的方法。

1 对比单模态、模态之间的不同组合

作者将自己的模型进行消融实验,对比单模态、模态之间的不同组合对最终结果的影响,主要包括:
(1)单模态:单文本模态、单序列模块、单结构模态;
(2)双模态:文本+序列模态、文本+结构模态、序列+结构模态;
(3)多模态:文本+序列+结构模态(每个模态用不同于本文方法的模型处理,用的是BioBERT+BiLSTM+CNN,本文用的是BioBERT+BiLSTM+CNN+胶囊网络+GCNN)、文本+序列+结构模态(每个模态用相同于本文方法的模型处理,但是多模态融合不是用attention,而是简单地concat)。
实验的结果如下表所示,表中报告的结果说明了所提出的多模态方法优于其他baselines。

2 对比最先进的方法

在数据集BioInfer和HRPD50上,作者对比多个最先进的模型,如下表:

3 结果讨论

通过分析以上对比研究,可以推断出,作者提出的多模态方法的整体性能超过了其他baselines和现有方法。在baselines模型中,提议的多模态方法优于其单模态和双模态方法。在单模态架构中,结构模态优于其他两个模态,这表明结构模态比文本模态和序列模态更重要。序列模态由于其较大的长度而表现不佳(大多数序列的长度约为10000个核苷酸)。
在双模态的架构中,文本+结构模态的表现超过了其他双模态和单模态,同样,作者提出的多模态结构比双模态有所改进。另外,在多模态模型的对比中,作者提出的模型同样是有提高的,这表明。除了多模态的信息之外,底层的深度模型和多模态融合的技术对改善整体架构的性能都有重要的贡献。
针对BioInfer和HRPD50数据集,作者所提出的多模态体系结构都优于最先进的方法。另外,作者进行了Welch的t检验,以表明通过所提出的模型获得的改进具有统计意义。从上面的比较研究中可以明显看出,作者提出的多模态方法可以有效地识别蛋白质相互作用,并且可以通过不同的方式进一步加以改进。

4 误差分析

作者对分类错误的正样本和负样本进行深入分析之后,推断出下列可能产生错误的原因:
(1)包含大量蛋白质实体的样本会导致分类错误。在HRPD50和BioInfer实例中,最大蛋白质数量分别为26和24。这有很大的错误分类的机会。例如,“Mutations in Saccharomyces cerevisiae RFC5, DPB11, MEC1, DDC2, MEC3, PDS1, CHK1, PDS1, and DUN1 have increased the rate of genome rearrangements up to 200-fold whereas mutations in RAD9, RAD17, RAD24, BUB3, and MAD3 have little effect.”
(2)重复提及相同的蛋白质实体会增加噪音,从而导致上下文信息松散。例如,“Here we demonstrate … CLIP-170 and LIS1 Overexpression of CLIP-170 results … phospho-LIS1 … that CLIP-170 and LIS1 regulate … that LIS1 is a regulated adapter between CLIP-170 … MT dynamics”。
(3)对于序列模态,我们考虑蛋白质的基础FASTA序列。序列的长度从100到10000个核苷酸不等。由于基于深度学习的模型无法处理太长的核苷酸链,因此过大的蛋白质长度会导致分类错误。

四、文章贡献

该论文的主要贡献概括如下:
1、作者对两个已有的文本数据库进行手工标注,拓展成具有多模态信息的两个PPI数据库。
2、作者提出的多模态体系结构使用自注意机制来集成不同模态提取的特征。
3、作者第一次尝试将文本信息和多组学信息结合起来。
4、结果和比较研究证明了作者开发的多模态数据集以及提出的多模态体系结构的有效性。

五、结论和未来工作

在这项工作中,作者通过将蛋白质结构和序列与生物医学文献中现有的文本信息融合在一起,生成了两个多模态的PPI数据库。通过一些示例说明了从PPI语料库生成多模式数据集的过程。此外,作者提出了一种新颖的深度多模态体系结构,用于管理PPI的多模态方案。对于每种模态(文本,基因序列和蛋白质结构),作者开发了不同的深度学习模型来进行有效的特征提取。详细的比较分析证明,提出的多模式体系结构优于其他强大的baselines和现有的模型。
作者希望未来能够增强序列特征提取方法,以提高分类性能,因为从结果来看,它的准确性较低。此外,还有很多选择可以改进多模态融合来增强模型的整体性能。


推荐阅读
  • 深入理解 SQL 视图、存储过程与事务
    本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式,存储过程则封装了复杂的SQL逻辑,而事务确保了数据库操作的完整性和一致性。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • Windows服务与数据库交互问题解析
    本文探讨了在Windows 10(64位)环境下开发的Windows服务,旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行,但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]
  • Docker的安全基准
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]
  • 资源推荐 | TensorFlow官方中文教程助力英语非母语者学习
    来源:机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南,帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]
  • Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]
  • 本文介绍如何使用Objective-C结合dispatch库进行并发编程,以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码,展示dispatch库的强大功能。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 深入解析 HDFS Federation:多命名空间架构详解
    HDFS Federation 是一种扩展 HDFS 架构的方式,通过引入多个独立的 NameNode 来解决单点故障和性能瓶颈问题。本文将详细探讨 HDFS Federation 的工作原理、优势以及潜在挑战。 ... [详细]
  • Java 中 Writer flush()方法,示例 ... [详细]
  • 本文介绍了如何使用 Spring Boot DevTools 实现应用程序在开发过程中自动重启。这一特性显著提高了开发效率,特别是在集成开发环境(IDE)中工作时,能够提供快速的反馈循环。默认情况下,DevTools 会监控类路径上的文件变化,并根据需要触发应用重启。 ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 构建基于BERT的中文NL2SQL模型:一个简明的基准
    本文探讨了将自然语言转换为SQL语句(NL2SQL)的任务,这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践,该比赛提供了金融和通用领域的表格数据,并标注了对应的自然语言与SQL语句对,旨在训练准确的NL2SQL模型。 ... [详细]
author-avatar
粉红色头发丫头_960
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有