热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE

本文主要介绍关于自然语言处理,知识图谱,人工智能的知识点,对【【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE】和【人工智能加持保险行业、又将迎来怎样的一个智能时代】有兴趣的

本文主要介绍关于自然语言处理,知识图谱,人工智能的知识点,对【【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE】和【人工智能加持保险行业、又将迎来怎样的一个智能时代】有兴趣的朋友可以看下由【科皮子菊】投稿的技术文章,希望该技术和经验能帮到你解决你所遇的Artificial Intelligence (AI),知识图谱相关技术问题。

人工智能加持保险行业、又将迎来怎样的一个智能时代

背景

了解知识图谱的友友应该都知道,知识图谱的构建可以从已有的非结构化、半结构化以及结构化的数据进行构建。对于结构化的数据,通常是数据库中的表,可以使用一些工具如R2RML语言。对于非结构化的数据,通常处理的对象是文本,但是随着研究领域的发展图片,视频等(多模态)也开始成为构建知识的来源。

相关技术也在不断发展,技术的可靠性可以通过有没有落地来验证。今天就介绍一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE。后续会根据情况对代码进行研读,并分享出来。

请添加图片描述

DeepKE是由浙江大学知识引擎实验室开发的中文关系抽取开源工具,官方网址:http://deepke.zjukg.org/CN/index.html,源码Github地址:https://github.com/zjunlp/DeepKE。DeepKE是一个开源和可扩展的知识图谱抽取工具,支持常规全监督、低资源少样本、长篇章文档和多模态场景,覆盖各种信息抽取任务包括命名实体识别、关系抽取和属性抽取。通过一个统一的框架,DeepKE 允许开发人员和研究人员自定义数据集和模型,并根据他们的需求从非结构化文本中抽取信息。DeepKE针对不同的功能和场景提供了各种功能模块和模型实现,以保持足够的模块化和可扩展性。此外,DeepKE还为初学者提供了全面的文档和 Google Colab 教程。用户可以通过“pip install deepke”安装 DeepKE。作者们也将长期提供维护以满足新的请求,支持新任务,和修复Bug。

如果对NLP中这个几个任务不熟的可以阅读源码,加深在该领域的理解。

功能介绍

官网提供了工具效果演示的网站页面,如下:http://deepke.zjukg.cn/CN/re_doc_show.html.

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


主要功能分为三个类别:单句、篇章级、多模态。

对于单句支持常用的:实体抽取、属性抽取、关系抽取三个任务。如实体抽取效果:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


篇章级、多模态则主要是关系抽取任务。

使用简介

具体使用可以参考官方文档:https://zjunlp.github.io/DeepKE/.该工具设计的框架如下:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


DeepKE包含命名实体识别、关系抽取和属性抽取三个模块,分别是三个任务。每个模块都有自己的子模块。例如,关系抽取模块中有标准的、少样本、文档级和多模态子模块。每个子模块由三部分组成:一组可用作tokenizer的工具、数据加载器、训练和预测时使用编码的一种处理模块。

项目也提供了多种使用方式,如pip安装到环境中,或者将源码下载到所需要使用的项目中,类似于项目的一个模块,然后再使用。以下载源码以及标注的NER任务为例,

我这里使用源码下载方式,如下:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE

进入对于案例使用文件夹路径,cd DeepKE/example/ner/standard,然后配置该案例运行所需要的包:

pytorch-transformers==1.2.0
torch==1.5.0
hydra-core==1.0.6
seqeval==0.0.5
tqdm==4.31.1
matplotlib==3.4.1
deepke

根据文档中的案例,我也创建了python3.8的环境:conda create -n deepke python=3.8,然后激活conda activate deepke。安装依赖包:pip install -r requirments.txt

第二步:获取标准的样例数据,通过wget 120.27.214.45/Data/ner/standard/data.tar.gz下载,然后tar -xzvf data.tar.gz解压,数据集和参数可以分别在data文件夹和conf文件夹中自定义。Dataset需要输入的是txt文本类型数据,文件数据格式需符合以下要求: 杭 B-LOC ‘\n’ 州 I-LOC ‘\n’ 真 O ‘\n’ 美 O ‘\n’。将对应的数据放到

模型训练,执行python run.py即开始训练,当然事情没有那么一帆风顺,我遇到了这个问题:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


根据提示,我卸载了protobuf,然后安装 pip install protobuf==3.20。除此之外,可以通过 wandb offline取消在线训练监控。再重新执行训练命令。又发现了一个问题:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


经过一番折腾,我查看了通过pip install deepke 到系统中的源码。:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


对应程序写死了,应该是版本不统一。当前pip install deepke 安装的最新版本是2.0.2版本,当前在的程序是主分支上代码。那么这时需要考虑下载成对应tag为2.0.2这个分支上的代码。或者将当前程序切换到对应分支上即可:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


在切换分支之前,确保不要对该项目进行改动,否则就会出现这种情况:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


调整后,就可以切换过去了:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


切换分支后,可以看到对应代码无须传参了:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


再根据原来的情况,设置相关的参数。再次执行 python run.py即可:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


当然,这里未使用GPU去训练。虽然电脑的GPU是GTX 950M 4G显存,但是性能跟不上,调整训练使用batch_size为4,以及使用GPU(gpu_id:0,use_gpu:True),当然,我也将环境中安装的pytorch版本换成GPU版本的了,因为默认安装的pytorch是cpu版本的,然后重新运行。但愿晚上下班后能看到训练好的结果。

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


这速度着实感人,希望早停机制尽快训练完毕。训练还挺快,晚上回来发现下午两点多就跑玩了,还不错。

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


在测试集上的效果也不错。

数据预测,数据预测执行python predict.py,阳光总在风雨后,没有什么能够随随便便成功,果不其然事情不是那么一帆风顺,

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


根据网上资料:AttributeError:module ‘distutils‘ has no attribute ‘version,降低setuptools包的版本即可。然后再次执行如下:

【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE


识别效果还可以哟。

总结

让机器从感知智能到认知智能发展,业界普遍认为知识图谱是非常不错的选择。在知识图谱构建过程中就少不了进行知识抽取。现在有这么一个开源工具对业界的发展以及相关技术的普及发挥着比较大的积极作用。具体的技术实现也值得我们去探索以及优化。

当然,这个工具在某种程度上还不成熟,不过总体还是不错的。后面有时间的话,我将会对其源码实现进行研究并分享,敬请期待哦。

本文《【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE》版权归科皮子菊所有,引用【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE需遵循CC 4.0 BY-SA版权协议。


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • AI行业的下一个风口是医疗?创业者们这样说
    ▼点击上方蓝字关注网易智能为你解读AI领域大公司大事件,新观点新应用编者按:4月10日,鲸准AI产业价值峰会在北京举行。本次大会除了邀请A ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • Linux重启网络命令实例及关机和重启示例教程
    本文介绍了Linux系统中重启网络命令的实例,以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法,以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]
  • 本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度,要求从最低点跳跃到最高点,每次跳跃的距离不超过D,并且不能改变给定的顺序。通过建立差分约束系统,将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法,并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • Python已成为全球最受欢迎的编程语言之一,然而Python程序的安全运行存在一定的风险。本文介绍了Python程序安全运行需要满足的三个条件,即系统路径上的每个条目都处于安全的位置、"主脚本"所在的目录始终位于系统路径中、若python命令使用-c和-m选项,调用程序的目录也必须是安全的。同时,文章还提出了一些预防措施,如避免将下载文件夹作为当前工作目录、使用pip所在路径而不是直接使用python命令等。对于初学Python的读者来说,这些内容将有所帮助。 ... [详细]
  • 通过Anaconda安装tensorflow,并安装运行spyder编译器的完整教程
    本文提供了一个完整的教程,介绍了如何通过Anaconda安装tensorflow,并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统,并提供了相关的网址供参考。通过本教程,读者可以轻松地安装和配置tensorflow环境,以及运行spyder编译器进行开发。 ... [详细]
  • 本文介绍了协程的概念和意义,以及使用greenlet、yield、asyncio、async/await等技术实现协程编程的方法。同时还介绍了事件循环的作用和使用方法,以及如何使用await关键字和Task对象来实现异步编程。最后还提供了一些快速上手的示例代码。 ... [详细]
author-avatar
verde公寓_401
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有