当前位置: 开发笔记 > 编程语言 > 正文

知识图谱入门：知识图谱的技术流程

作者：高淑美萱士建志 | 来源：互联网 | 2023-08-21 12:23

知识图谱的技术流程知识图谱用于表达更加规范的高质量数据。一方面，知识图谱采用更加规范而标准的概念模型、本体术语和语法格式来建模和描述数据；另一方面&#x

知识图谱的技术流程

知识图谱用于表达更加规范的高质量数据。

一方面&＃xff0c;知识图谱采用更加规范而标准的概念模型、本体术语和语法格式来建模和描述数据&＃xff1b;
另一方面&＃xff0c;知识图谱通过语义链接增强数据之间的关联。这种表达规范、关联性强的数据在改进搜索、问答体验、辅助决策分析和支持推理等多个方面都能发挥重要的作用。

知识图谱方法论涉及知识表示、知识获取、知识处理和知识利用多个方面。一般流程为&＃xff1a;

首先确定知识表示模型&＃xff0c;然后根据数据来源选择不同的知识获取手段导入知识
接着综合利用知识推理、知识融合、知识挖掘等技术对构建的知识图谱进行质量提升
最后根据场景需求设计不同的知识访问与呈现方法&＃xff0c;如语义搜索、问答交互、图谱可视化分析等。

下面简要概述这些技术流程的核心技术要素。

1.知识来源

可以从多种来源获取知识图谱数据&＃xff0c;包括文本、结构化数据库、多媒体数据、传感器数据和人工众包等。

每一种数据源的知识化都需要综合各种不同的技术手段。例如&＃xff0c;对于文本数据源&＃xff0c;需要综合实体识别、实体链接、关系抽取、事件抽取等各种自然语言处理技术&＃xff0c;实现从文本中抽取知识。

结构化数据库如各种关系数据库&＃xff0c;也是最常用的数据来源之一。已有的结构化数据库通常不能直接作为知识图谱使用&＃xff0c;而需要将结构化数据定义到本体模型之间的语义映射。再通过编写语义翻译工具实现结构化数据到知识图谱的转化。此外&＃xff0c;还需要综合采用实体消歧、数据融合、知识链接等技术&＃xff0c;提升数据的规范化水平&＃xff0c;增强数据之间的关联。

语义技术也被用来对传感器产生的数据进行语义化。这包括对物联设备进行抽象&＃xff0c;定义符合语义标准的数据接口&＃xff1b;对传感数据进行语义封装和对传感数据增加上下文语义描述等。

人工众包是获取高质量知识图谱的重要手段。例如&＃xff0c;Wikidata 和 Sehema.org 都是较为典型的知识众包技术手段。此外&＃xff0c;还可以开发针对文本、图像等多种媒体数据的语义标注工具&＃xff0c;辅助人工进行知识获取。

2.知识表示与 Schema 工程

知识表示是指用计算机符号描述和表示人脑中的知识&＃xff0c;以支持机器模拟人的心智进行推理的方法与技术。

知识表示决定了图谱构建的产出目标&＃xff0c;即知识图谱的语义描述框架
(Description Framework)、Schema 与本体&＃xff08;Ontology)、知识交换语法&＃xff08;Syntax)、实体命名及 ID 体系。

基本描述框架定义知识图谱的基本数据模型&＃xff08;Data Model&＃xff09;和逻辑结构&＃xff08;Structure)&＃xff0c;如:

国际万维网联盟&＃xff08;World Wide Web Consortium&＃xff0c;W3C&＃xff09;的 RDF。
Schema 与本体定义知识图谱的类集、属性集、关系集和词汇集。交换语法定义知识实际存在的物理格式&＃xff0c;如Turtle、JSON 等。实体命名及 ID 体系定义实体的命名原则及唯一标识规范等。

什么是 RDF&＃xff1f;

w3school中是这样解释的&＃xff1a;

RDF 指资源描述框架&＃xff08;Resource Description Framework&＃xff09;
RDF 是一个用于描述 Web 上的资源的框架
RDF 提供了针对数据的模型以及语法&＃xff0c;这样独立的团体们就可以交换和使用它
RDF 被设计为可被计算机阅读和理解
RDF 被设计的目的不是为了向人们显示出来
RDF 使用 XML 编写
RDF 是 W3C 语义网络活动的组成部分
RDF 是一个 W3C 推荐标准

按知识类型的不同&＃xff0c;知识图谱包括词&＃xff08;Vocabulary&＃xff09;、实体&＃xff08;Entity&＃xff09;、关系(Relation)、事件(Event)、术语体系&＃xff08;Taxonomy&＃xff09;、规则&＃xff08;Rule&＃xff09;等。

词一级的知识以词为中心&＃xff0c;并定义词与词之间的关系&＃xff0c;如 WordNet&＃xff0c;ConceptNet 等。
实体一级的知识以实体以实体为中心&＃xff0c;并定义实体之间的关系、描述实体的术语体系等。
事件是一种复合的实体:

W3C 的 RDF 把三元组&＃xff08;Triple&＃xff09;作为基本的数据模型&＃xff0c;其基本的逻辑结构包含主语(Subject)、谓词&＃xff08;Predicate&＃xff09;、宾语&＃xff08;Object&＃xff09;三个部分。虽然不同知识库的描述框架的表述有所不同&＃xff0c;但本质上都包含实体、实体的属性和实体之间的关系几个要素。

3.知识抽取

知识抽取按任务可以分为概念抽取、实体识别、关系抽取、事件抽取和规则抽取等。

传统专家系统时代的知识主要依靠专家手工录入&＃xff0c;难以扩大规模。现代知识图谱的构建通常大多依靠已有的结构化数据资源进行转化&＃xff0c;形成基础数据集&＃xff0c;再依靠自动化知识抽取和知识图谱补全技术&＃xff0c;从多种数据来源进一步扩展知识图谱&＃xff0c;并通过人工众包进一步提升知识图谱的质量。

结构化和文本数据是目前最主要的知识来源。

4.知识融合

在构建知识图谱时&＃xff0c;可以从第三方知识库产品或已有结构化数据中获取知识输入。

当多个知识图谱进行融合&＃xff0c;或者将外部关系数据库合并到本体知识库时&＃xff0c;需要处理两个层面的问题&＃xff1a;

通过模式层的融合&＃xff0c;将新得到的本体融入已有的本体库中&＃xff0c;以及新旧本体的融合&＃xff1b;
数据层的融合&＃xff0c;包括实体的指称、属性、关系以及所属类别等&＃xff0c;主要的问题是如何避免实例以及关系的冲突问题&＃xff0c;造成不必要的冗余。

数据层的融合是指实体和关系&＃xff08;包括属性&＃xff09;元组的融合&＃xff0c;主要是实体匹配或者对齐
由于知识库中有些实体含义相同但是具有不同的标识符&＃xff0c;因此需要对这些实体进行合并处理。

此外&＃xff0c;还需要对新增实体和关系进行验证和评估&＃xff0c;以确保知识图谱的内容一致性和准确性&＃xff0c;通常采用的方法是在评估过程中为新加入的知识赋予可信度值&＃xff0c;据此进行知识的过滤和融合。

实体对齐的任务包括实体消歧和共指消解&＃xff0c;即判断知识库中的同名实体是否代表不同的含义以及知识库中是否存在其他命名实体表示相同的含义。

实体消歧专门用于解决同名实体产生歧义的问题&＃xff0c;通常采用聚类法&＃xff0c;其关键问题是如何定义实体对象与指称项之间的相似度&＃xff0c;一些最新的工作利用知识图谱嵌入方法进行实体对齐&＃xff0c;并引入人机协作方式提升实体对齐的质量。
本体是针对特定领域中 Schema定义、概念模型和公理定义而言的&＃xff0c;目的是弥合词汇异构性和语义歧义的间隙&＃xff0c;使沟通达成共识。这种共识往往通过一个反复的过程达到&＃xff0c;每次迭代都是一次共识的修改。因此&＃xff0c;本体对齐通常带来的是共识模式的演化和变化&＃xff0c;本体对齐的主要问题之一也可以转化为怎样管理这种演化和变化】。

5.知识图谱补全与推理

常用的知识图谱补全方法包括:

基于本体推理的补全方法&＃xff0c;这类推理主要针对TBox&＃xff0c;即概念层进行推理&＃xff0c;也可以用来对实体级的关系进行补全。
基于图结构和关系路径特征的方法&＃xff0c;如基于随机游走获取路径特征的PRA算法、基于子图结构的SFE法基于层次随机游走模型的 PRA算法。这类算法的共同特点是通过两个实体节点之间的路径&＃xff0c;以及节点周围图的结构提取特征&＃xff0c;并通过随机游走等算法降低特征抽取的复杂度&＃xff0c;然后叠加线性的学习模型进行关系的预测。此类算法依赖于图结构和路径的丰富程度
更为常见的补全实现是基于表示学习和知识图谱嵌入的链接预测&＃xff0c;简单的如前面介绍最基本的翻译模型、组合模型和神经元模型等。这类简单的嵌入模型一般只能实现单步的推理。对于更为复杂的模型&＃xff0c;如向量空间中引入随机游走模型的方法&＃xff0c;在同一个向量空间中将路径与实体和关系一起表示出来再进行补全的模型
文本信息也被用来辅助实现知识图谱的补全[。例如&＃xff0c;Jointly(w)、ointly(z)、 DKRL、TEKE、SSP 等方法将文本中的实体和结构化图谱中的实体对齐&＃xff0c;然后利用双方的语义信息辅助实现关系预测或抽取。这类模型一般包含三个部分:三元组解码器、文本解码器和联合解码器。三元组解码器将知识图谱中的实体和关系转化为低维向量;文本解码器则要从文本语料库中学习实体(词)的向量表示;联合解码器的目的是要保证实体、关系和词的嵌入向量位于相同的空间中&＃xff0c;并且集成实体向量和词向量。

6、知识检索与知识分析

基于知识图谱的知识检索的实现形式主要包括语义检索和智能问答。

传统搜索引擎依靠网页之间的超链接实现网页的搜索&＃xff0c;
而语义搜索直接对事物进行搜索&＃xff0c;如人物、机构、地点等。这些事物可能来自文本、图片、视频、音频、loT设备等各种信息资源。而知识图谱和语义技术提供了关于这些事物的分类、属性和关系的描述&＃xff0c;使得搜索引擎可以直接对事物进行索引和搜索。

知识图谱和语义技术也被用来辅助做数据分析与决策。例如&＃xff0c;大数据公司 Plantir基于本体融合和集成多种来源的数据&＃xff0c;通过知识图谱和语义技术增强数据之间的关联&＃xff0c;使得用户可以用更加直观的图谱方式对数据进行关联挖掘与分析。

近年来&＃xff0c;描述性数据分析(Declarative Data Analysis)越来越受到重视。描述性数据分析是指依赖数据本身的语义描述实现数据分析的方法。

不同于计算性数据分析主要以建立各种数据分析模型&＃xff0c;如深度神经网络&＃xff0c;描述性数据分析突出预先抽取数据的语义&＃xff0c;建立数据之间的逻辑&＃xff0c;并依靠逻辑推理的方法(如Datalog)实现数据分析。

参考资料&＃xff1a; 知识图谱&＃xff1a;方法、实践与应用&＃xff1a;王昊奋漆桂林等主编

推荐阅读

install
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
install
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
config
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
ip
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
ip
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
default
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
foreach
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
ip
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
ip
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33
foreach
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
ip
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
command
Windows服务与数据库交互问题解析

本文探讨了在Windows 10（64位）环境下开发的Windows服务，旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行，但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ... [详细]

蜡笔小新 2024-12-28 10:30:14
command
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
install
Linux 自动化安装脚本详解

本文介绍了一款用于自动化部署 Linux 服务的 Bash 脚本。该脚本不仅涵盖了基本的文件复制和目录创建，还处理了系统服务的配置和启动，确保在多种 Linux 发行版上都能顺利运行。 ... [详细]

蜡笔小新 2024-12-27 16:33:32
foreach
深入解析 MVC 源码：ParameterDescriptor 与 Action 方法参数绑定

在前两篇文章中，我们探讨了 ControllerDescriptor 和 ActionDescriptor 这两个描述对象，分别对应控制器和操作方法。本文将基于 MVC3 源码进一步分析 ParameterDescriptor，即用于描述 Action 方法参数的对象，并详细介绍其工作原理。 ... [详细]

蜡笔小新 2024-12-27 15:26:10

高淑美萱士建志

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章