当前位置: 开发笔记 > 编程语言 > 正文

辅助信息抽取

作者： | 来源：互联网 | 2023-09-16 13:19

辅助信息抽取辅助信息抽取辅助信息抽取1.data_naming.ipynb2.data_preprocessing.ipynb3.ner_by_rule_or_dict.ipyn

$辅助信息抽取$

1.data_naming.ipynb
2.data_preprocessing.ipynb
3.ner_by_rule_or_dict.ipynb
4.ner_json_to_iboes.ipynb
5.ner_by_crf.ipynb
6.word_embedding.ipynb
7.BiLSTM &＃43; CRF进行NER.ipynb
8.nre_by_pcnn.ipynb
9.service_nre

知识图谱的概念与应用

知识图谱里通常用“实体&＃xff08;Entity&＃xff09;”来表达图里的节点&＃xff0c;用“关系&＃xff08;Relationship&＃xff09;”来表达图里的边。

储存方式&＃xff1a;三元组&＃xff08;entity1,entity2,relationship&＃xff09;

什么是信息抽取&＃xff1a;

对于结构化与半结构化数据需要复杂表数据的处理和定义抽取的包装器等方式实现。

对非结构化的纯文本数据需要借助自然语言处理等技术来自动地提取出结构化信息。这个过程一般称为信息抽取。

在这里插入图片描述

自然语言理解本质是结构预测

自然语言理解的众多任务,包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析.语义角色标注等,都是在对文本序列背后特定语义结构进行预测。

信息抽取的主要任务&＃xff1a;

命名实体识别
关系抽取
实体统一
指代消解

在这里插入图片描述

搭建一个知识图谱系统的重点并不在于算法和开发&＃xff0c;其实最重要的核心在于对业务的理解以及对知识图谱本身的设计

步骤&＃xff1a;

1&＃xff0e;定义具体的业务问题
2&＃xff0e;数据的收集&预处理
3&＃xff0e;知识图谱的设计
4&＃xff0e;把数据存入知识图谱
5 . 上层应用的开发,以及系统的评估。

标注工具&＃xff1a;brat

http://brat.nlplab.org

正则表达式与AC自动机

AC自动机:
字符串搜索算法&＃xff0c;用于在输入的一串字符串中匹配有限组“字典”中的子串。它与普通字符串匹配的不同点在于同时与所有字典串进行匹配。算法均摊情况下具有近似于线性的时间复杂度&＃xff0c;约为字符串的长度加所有匹配的数量。
在这里插入图片描述
KMP算法&＃xff1a;

KMP算法核心为部分匹配表&＃xff0c;记录字符串中的前缀集合与后缀集合的交集中最长元素的长度。根据部分匹配表,可避免重复检查先前匹配的元素。
在这里插入图片描述

Trie树&＃xff1a;

trie&＃xff0c;又称前缀树或字典树&＃xff0c;是一种有序树,用于保存关联数组&＃xff0c;其中的键通常是字符串。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串&＃xff0c;而根节点对应空字符串。一般情况下&＃xff0c;不是所有的节点都有对应的值,只有叶子节点和部分内部节点所对应的键才有相关的值。

在这里插入图片描述

AC自动机&＃xff1a;
AC自动机&＃61; KMP &＃43; Trie树
依靠构造一个有限状态机&＃xff08;类似于在一个trie树中添加失配指针)来实现。这些额外的失配指针允许在查找字符串失败时进行回退(例如设Trie树的单词cat匹配失败,但是在Trie树中存在另一个单词cart&＃xff0c;失配指针就会指向前缀ca&＃xff09;&＃xff0c;转向某前缀的其他分支&＃xff0c;免于重复匹配前缀&＃xff0c;提高算法效率。
在这里插入图片描述

正则表达式&＃xff1a;
原理:NFA自动机&＃xff08;Non deterministicFinite Automaton不确定型有穷自动机)NFA 是以正则表达式为基准去匹配的.发现不匹配了。此时就会发生回溯。
在这里插入图片描述

基于规则的信息抽取&＃xff1a;

在这里插入图片描述

NER发展

在这里插入图片描述

机器学习的基本流程

在这里插入图片描述

自然语言处理&＃xff0c;人工智能皇冠上的明珠&＃xff01;

中文NLP语言处理的一般流程&＃xff1a;

1.获取语料
2.语料预处理
3.特征工程
4.特征选择
5.模型训练
6.评价指标
7.模型上线应用

中文分词

中文切词常见方法里既有经典的机械切分法&＃xff08;如正向/逆向最大匹配,双向最大匹配等&＃xff09;,也有效果更好一些的统计切分方法(如隐马尔可夫HMM&＃xff0c;条件随机场CRF)以及近年来兴起的采用深度神经网络的RNNLSTM等方法。

词性标注

常见的词性标注方法可以分为基于规则和基于统计的方法。其中基于统计的方法&＃xff0c;如基于最大嫡的词性标注、基于统计最大概率输出词性和基于HMM的词性标注。近年来兴起的采用深度神经网络的RNN&＃xff0c;LSTM等方法。

去停用词

停用词词典是根据具体场景来决定的&＃xff0c;比如在情感分析中,语气词、感叹号是应该保留的,因为他们对表示语气程度、感情色彩有一定的贡献和意义。
在这里插入图片描述

命名实体识别

NER通常包括两部分:(1&＃xff09;实体边界识别;&＃xff08;2&＃xff09;确定实体类别&＃xff08;人名、地名、机构名或其他)。

英文中的命名实体具有比较明显的形式标志&＃xff08;即实体中的每个词的第一个字母要大写&＃xff09;&＃xff0c;所以实体边界识别相对容易&＃xff0c;任务的重点是确定实体的类别。和英文相比&＃xff0c;中文命名实体识别任务更加复杂,而且相对于实体类别标注子任务&＃xff0c;实体边界的识别更加困难。

大部分情况下&＃xff0c;标签体系越复杂准确度也越高,但相应的训练时间也会增加。因此需要根据实际情况选择合适的标签体系。

序列标注

在这里插入图片描述

NER评价标准

在这里插入图片描述

一般采用2&＃xff0c;使用考虑实体边界&＃43;实体类型评测

多分类的评价标准

在这里插入图片描述

基于规则的信息抽取:精确率高&＃xff0c;但召回率比较低。
基于规则的方式比较适合半结构化或比较规范的文本中的进行抽取任务&＃xff0c;结合业务需求能够达到一定的效果。
优点:简单,快速;
缺点:召回低&＃xff0c;泛化能力差

HMM与维特比解码

马尔可夫过程为状态空间中经过从一个状态到另一个状态的转换的随机过程。

该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定&＃xff0c;在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

隐马尔可夫模型&＃xff0c;是统计模型&＃xff0c;它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。

在这里插入图片描述

HMM的两个假设

在这里插入图片描述
HMM模型描述的就是由这些隐状态序列(实体标记)生成可观测状态(可读文本)的过程.

HMM的三个基本问题

在这里插入图片描述

维特比算法

维特比算法解码使用了动态规划算法来解决HMM的预测问题,找到概率最大路径&＃xff0c;也就是最优路径。

在每一时刻,计算当前时刻落在每种隐状态的最大概率,并记录这个最大概率是从前一时刻哪一个隐状态转移过来的,最后再从结尾回溯最大概率&＃xff0c;也就是最有可能的最优路径&＃xff0e;
在这里插入图片描述

条件随机场

概率图模型

概率图模型是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型。

图中的每个节点都对应一个随机变量&＃xff0c;可以是观察变量&＃xff0c;隐变量或是未知参数等;每个连接表示两个随机变量之间具有依赖关系。

在这里插入图片描述

在这里插入图片描述
无向图G中任何两个结点均有边连接的节点子集称为团。若C是无向图G的一个团&＃xff0c;并且不能再加进任何一个G的结点使其成为一个更大的团&＃xff0c;则称此C为最大团。

无向图的联合概率可以分解为一系列定义在最大团上的非负函数的乘积形式。
在这里插入图片描述
如果随机变量Y构成一个由无向图G&＃61;(V&＃xff0c;E)表示的马尔可夫随机场&＃xff0c;对任意节点vEV都成立&＃xff0c;即

则称P(Y|X)是条件随机场。式中w≠v表示w是除v以外的所有节点&＃xff0c;w~v表示w是与v相连接的所有节点。

生成:对联合概率P(X&＃xff0c;Y)建模

判别:对条件概率P(Y|X)建模
在这里插入图片描述

CRF更加强大-CRF可以为任何HMM能够建模的事物建模&＃xff0c;甚至更多。

CRF可以定义更加广泛的特征集。而HMM在本质上必然是局部的&＃xff0c;而CRF就可以使用更加全局的特征。CRF可以有任意权重值&＃xff0c;HMM的概率值必须满足特定的约束。

1&＃xff0e;基于规则的专家系统
召回低,规则维护复杂&＃xff0c;泛化能力差

2&＃xff0e;基于特征的监督学习
需要大量特征工程&＃xff0c;泛化能力一般

基于DL的NER模型成为主流&＃xff0c;并取得了sOTA

深度学习的关键优势在于其强大的表示学习能力,通过向量表示和神经网络学习复杂的组合语义。

深度学习可以通过对原始数据进行训练自动发现分类或检测所需的语义表示。

NLP中监督任务的基本套路:

文本数据搜集和预处理
将文本进行编码和表征
设计模型解决具体任务

在这里插入图片描述

文本表示

文本表示是深度学习进行NLP任务的第一步&＃xff0c;将自然语言转化为深度学习能处理的数据。
在这里插入图片描述

词向量&＃xff0c;将自然语言进行数学化。

One-hot :
维度灾难,不能刻画词与词之间的相似性
Distributed:
将词映射成固定长度的短向量&＃xff0c;构造词向量空间&＃xff0c;通过距离刻画词之间的相似性。

推荐阅读

cmd
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
config
华为云openEuler环境下的Web应用部署实践

本文详细记录了在华为云openEuler系统上进行Web应用部署的具体步骤，包括配置yum源、安装Apache、MariaDB、PHP及其相关组件，并完成WordPress的安装与配置过程。 ... [详细]

蜡笔小新 2024-11-25 12:39:31
php
实用浏览器插件与高效工具推荐

本文旨在介绍一系列提升工作效率的浏览器插件和实用小工具，帮助用户在日常工作中更加便捷高效。内容由原作者授权发布。 ... [详细]

蜡笔小新 2024-11-26 10:10:09
uri
优雅地记录API调用时长

本文旨在探讨如何高效且优雅地记录API接口的调用时长，通过实际案例和代码示例，帮助开发者理解并实施这一技术，提高系统的可观测性和调试效率。 ... [详细]

蜡笔小新 2024-11-25 17:56:55
require
深入解析 cache-content-type 和 mime-types 的应用与优化

本文介绍了两个重要的Node.js库——cache-content-type和mime-types，它们在处理HTTP响应头时非常有用。cache-content-type是基于mime-types构建的，并且实现了缓存机制以提高性能。 ... [详细]

蜡笔小新 2024-11-25 16:51:02
byte
解决ORA-00227错误：控制文件中检测到损坏块

本文详细介绍了如何处理Oracle数据库中的ORA-00227错误，即控制文件中检测到损坏块的问题，并提供了具体的解决方案。 ... [详细]

蜡笔小新 2024-11-25 11:31:38
config
SpringBoot底层注解用法及原理

2.1、组件添加1、Configuration基本使用Full模式与Lite模式示例最佳实战配置类组件之间无依赖关系用Lite模式加速容器启动过程，减少判断配置类组 ... [详细]

蜡笔小新 2024-11-25 09:48:01
web
如何利用Sitecore API密钥进行项目检索

本文探讨了如何在Sitecore 9环境中通过Postman使用API密钥发送请求，包括解决常见错误的方法。 ... [详细]

蜡笔小新 2024-11-25 09:44:38
php
iOS 小组件开发指南

本文详细介绍了iOS小部件（Widget）的开发流程，从环境搭建、证书配置到业务逻辑实现，提供了一系列实用的技术指导与代码示例。 ... [详细]

蜡笔小新 2024-11-25 08:43:14
php
Kubernetes Services详解

本文深入探讨了Kubernetes中的服务（Services）概念，解释了如何通过Services实现Pods之间的稳定通信，以及如何管理没有选择器的服务。 ... [详细]

蜡笔小新 2024-11-24 18:37:01
go
Implementing and Testing Ext Ajax Calls with Promises

This article explores the process of integrating Promises into Ext Ajax calls for a more functional programming approach, along with detailed steps on testing these asynchronous operations. ... [详细]

蜡笔小新 2024-11-24 15:29:28
go
使用jQuery与百度地图API实现地址转经纬度功能

本文详细介绍了如何利用jQuery和百度地图API将地址转换为经纬度，包括申请API密钥、页面构建及核心代码实现。 ... [详细]

蜡笔小新 2024-11-24 14:33:10
go
C/C++ 应用程序的安装与卸载解决方案

本文介绍了如何使用Inno Setup来创建C/C++应用程序的安装程序，包括自动检测并安装所需的运行库，确保应用能够顺利安装和卸载。 ... [详细]

蜡笔小新 2024-11-23 13:44:53
go
SSM框架实战：分页功能实现详解

本文详细介绍如何在SSM（Spring + Spring MVC + MyBatis）框架中实现分页功能。包括分页的基本概念、数据准备、前端分页栏的设计与实现、后端分页逻辑的编写以及最终的测试步骤。 ... [详细]

蜡笔小新 2024-11-23 11:40:33
request
基于SSM框架的在线考试系统：随机组卷功能详解

本文深入探讨了基于SSM（Spring, Spring MVC, MyBatis）框架构建的在线考试系统中，随机组卷功能的设计与实现方法。 ... [详细]

蜡笔小新 2024-11-22 19:00:26

Tags | 热门标签

RankList | 热门文章