热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

WorldKG:AWorldScaleGeographicKnowledgeGraph

WorldKG:AWorld-ScaleGeographicKnowledgeGraph(WorldKG:世界级地理知识图谱)0AbstractOpenStreetMap是一个丰富

WorldKG: AWorld-Scale Geographic Knowledge Graph(WorldKG:世界级地理知识图谱)


0 Abstract

OpenStreetMap是一个丰富的公开地理信息源。然而,OpenStreetMap 中地理实体的表示,例如建筑物、山脉和城市,是高度异构、多样化和不完整的。因此,这种丰富的数据源很难用于实际应用程序。 本文介绍了 WorldKG——一种新的地理知识图谱,旨在为 OpenStreetMap 中的地理实体提供全面的语义表示。我们描述了 WorldKG 知识图谱,包括其构建语义数据集主干的本体,从 OpenStreetMap 中提取本体和地理实体的过程,以及增强实体标注的方法。我们进行了统计和定性数据集评估,展示了 WorldKG 中语义地理信息的大规模和高精度。




10 Conclusion

在本文中,我们提出了 WorldKG——一种新的地理知识图谱,它提供 OpenStreetMap 数据集中地理实体的语义表示。发布的WorldKG知识图包含超过8.28亿个三元组,其中超过1亿个实体分布在1176个类中。通过对随机选择的样本数据进行手动质量评估,我们观察到 WorldKG 包含高精度数据。我们使数据转储可用,并为访问WorldKG提供SPARQL端点。通过遵循语义数据发布的最佳实践,我们确保数据的可用性和可用性,并致力于维护定期更新以实现可持续性。我们相信 WorldKG 有潜力帮助许多使用地理数据的应用程序和未来的研究。




Chart

image-20220429091142782

Table1: WorldKG 使用的前缀和命名空间列表

image-20220429091538848

Fig1: WorldKG 本体

image-20220429091920409

Table2: 示例OSM标记和维基数据类之间的映射。

image-20220429091628282

Fig2: WKS特定实例的WorldKG本体实例:CaveEntrance。

image-20220429091811751

Fig3: WorldKG本体和知识图的创建过程。

image-20220429092031518

Table3: WorldKG知识图表统计。

image-20220429092204086

Table4: 关于维基数据和DBpedia类的WorldKG类型断言的评估结果。

image-20220429092304112

Table5: WorldKG、Wikidata 和 DBpedia 中的地理实体数量

image-20220429092438495

Table6: 清单3中示例SPARQL查询的结果。

image-20220429092533038

Fig4: 清单 3 中的查询返回的最接近 Brandenburger Tor 的三家餐厅的可视化。




1 Introduction

总的来说,我们在本文中的主要贡献如下:



  • 我们提出了 WorldKG——一个新的知识图谱,其中包含从 OSM 中提取的大规模语义地理数据。

  • 我们介绍了WorldKG本体,它在语义上描述了地理实体,并将它们链接到Wikidata和DBpedia本体中的特定类。

  • 我们通过SPARQL端点提供对WorldKG的访问,并提供标准RDF turtle格式的可下载数据文件 [6]。

  • 为了确保可再现性,我们在一个开放的MIT许可下,在GitHub上公开了GorldKG创建的整个管道的源代码。

本文的其余部分组织如下:在第 2 节中,我们讨论了所提出的 WorldKG 知识图谱的相关性和预期影响。然后,我们在第3节中提供了OSM语料库和知识图的正式定义。我们在第 4 节介绍了提出的 WorldKG 本体,并在第 5 节解释了 WorldKG 创建过程。我们在第 6 节展示了 WorldKG 的统计和评估结果。在第7节中,我们描述了数据集的可用性、效用和可持续性方面。第 8 节提供了一个使用 WorldKG 的真实应用示例。我们将在第 9 节讨论相关工作。最后,在第 10 节中,我们提供结论性意见。




2 Relevance and expected impact

本节讨论提议的 WorldKG 知识图谱的预期影响及其对社区、应用程序和技术采用的意义。




3 OSM and knowledge graphs

WorldKG 的目标是集成 OpenStreetMap 和知识图谱。在本节中,我们简要描述了数据结构及其相互链接。在这项工作的背景下,我们将具有地理范围的实体 (即位于地球上的实体) 称为地理实体。


3.1 OpenStreetMap

OpenStreetMap 是全球公开提供的志愿地理信息的重要来源之一,其中包括来自超过 760 万志愿者的贡献(截至 2021 年 6 月)。OSM 捕获了大量且不断增长的地理实体,目前在 188 个国家/地区的数量超过 68 亿 [23]。OSM 数据模型的基本组成部分是nodes、ways 和 relations 。nodes 表示具有地理位置的实体(例如,山峰和树木)。ways 表示线性形式的地理实体(例如河流和道路)。relations 是由nodes、ways 和其他关系(例如边界和公交路线)组成的元素组。对于 WorldKG 知识图谱(WorldKG V1.0)的当前范围,我们只考虑 OSM 节点

OSM不遵循严格的模式,但为志愿者提供了一组指南5,用于创建和注释地理实体。结果,OSM具有丰富多样的模式,具有80,000多个不同的键和众多的值。

我们正式定义 OSM 语料库的概念如下:

定义 3.1。 OSM 语料库\(C=(N,T)\) 表示地理实体的一组节点 \(N\) 和一组标记 \(T\) 。每个标签 \(t \in T\) 表示为一个键值对,键 \(k \in K\) 和一个值 \(v \in V\)\(t=\langle k, v\rangle\)。 节点 \(n \in N\), \(n=\langle i,l, T_{n}\rangle\) 表示为包含标识符 \(i\)、地理位置 \(l\) 和一组标签 \(T_n \subset T\) 的元组。

OSM 节点有一个唯一的标识符,并包含各种称为标签的键值对。 以下以德国最高峰“楚格峰”为例说明了标签结构。

image-20220429104022208

在这里,带有诸如summit:cross,name 和ele (海拔高度) 之类的键的标签充当实体的属性,而标签 natural = peak代表实体类型 (在这种情况下相当于DBpedia类dbo:Mountain)。


3.2 Knowledge Graphs

知识图是语义信息的丰富来源,包含实体、类、属性、文字和关系。

定义 3.2。 知识图谱 \(\mathcal{KG} =(E, C, P, L, F)\) 由一系列实体 \(E\), 类 \(C \subset E\) ,属性 \(P\) ,文字 \(L\) ,以及关系 \(F \subseteq E \times P \times (E\cup L)\) 组成。

\(E\) 中的实体表示现实世界的实体和语义类。在这项工作的背景下,我们对知识图中的地理实体特别感兴趣。\(P\) 中的属性表示连接两个实体的关系,或一个实体和一个文字值。KG 中的实体可以属于一个或多个类,并且通常使用 rdf:type 或等效属性链接到一个类。

定义 3.3。知识图谱 \(\mathcal{KG} =(E, C, P, L, F)\) 中实体 \(e \in E\) 的类表示为 $class(e)=\left { c\in C\mid (e,\text { rdf: type, }c)\in F \right } $

知识图中的数据通常以具有主-谓-宾结构的 RDF6 格式表示。 考虑 Wikidata 中实体“Zugspitze”表示的相应摘录:

image-20220429110621306

在这个例子中,“Q3375 instance of mountain” 这个表述指的是实体属于Wikidata类“mountain”。


3.3 Linking OpenStreetMap and KGs

尽管OSM包含大量地理空间数据,但OSM键和标签是异构的,不具有任何机器可读的语义,并且不能直接用于语义应用程序。Wikidata、DBpedia和YAGO等知识图谱提供了丰富的本体,但缺乏地理覆盖。例如,在2021年6月中,OSM中存在931,574个带有标签 amenity = restaurant 的节点,而Wikidata仅包含等效类别 “restaurant” 的4,391个实体。

OSM标签和知识图谱类之间的等价链接很少存在。在大约 80,000 个 OSM 键中,只有 0.7% 映射到 Wikidata 类。在本体级别,对齐受到平面 OSM 模式和分层 KG 本体之间结构不匹配的限制。由于上述原因,融合 OSM 和 KG 实体以创建全面的语义地理空间资源是一项具有挑战性的任务。




4 WorldKG ontology

WorldKG的目的是通过整合各种数据源,将 OSM 模式提升为分层本体。供一个全面的地理空间知识图谱。在构建世界KG本体论时,我们考虑以下目标:



  • 在WorldKG中捕获地理空间实体。

  • 包括现有知识图类和WorldKG类之间的关系。

  • 将 OSM 模式提升为分层本体。

  • 为所有WorldKG 实体提供出处信息。

  • 允许 WorldKG 本体的轻松扩展。

我们基于 OSM 模式的键值对来定义 WorldKG 本体。 图 1 展示了 WorldKG 本体。WorldKG本体中的每个类都是wkgs:WKGObject的子类,其中命名空间wkgs表示WorldKG模式元素 (有关WorldKG中的前缀和命名空间的列表,请参见表1)。WorldKG 属性被建模为 wkgs:WKGProperty 并提供有关不指示类型分配的 OSM 标记的信息。

地理空间支持。为了在数据集上启用地理查询,我们利用开放地理空间联盟7提出的GeoSPARQL框架。为了提供有关其地理范围的信息,每个 wkgs:WKGObject 实体可以通过属性 wkgs:spatialObject 与 geo:SpatialObject 相关联,其中 geo:SpatialObject 可以是点、线串或多边形。geo:SpatialObject 支持在 SPARQL 查询中计算地理空间函数(例如,距离、最近邻)。 有关使用这些函数的查询示例,请参阅第 8 节。


4.1 WorldKG Classes and Properties

OSM 社区提供了一个已建立的键值对列表,即所谓的地图特征列表8。地图特征的一个示例是键值对 natural=cave_entrance 用于注释 OSM 中的洞穴入口。我们使用地图特征列表来构建类层次结构。 特别是,我们将特征映射列表中的所有键视为顶级类(例如,自然)。分配给键的值表示为它们的子类。 例如,cave_entrance 是 natural 的子类。

图2说明了在WorldKG本体中如何表示键值对natural = cave_engation。



  • OSM 键 natural 被转换为顶级类 wkgs:Natural,它总结了自然实体。

  • OSM值cave_entrance是wkgs:Natural的子类,即wkgs:CaveEntrance代表洞穴入口。

我们只将分类值视为 WorldKG 中的子类。 其他值类型,例如布尔值或数值,不被视为子类。 相反,我们使用相应键提供的顶级类。 例如,带有标签 building=yes 的实体被键入为 wkgs:Building。

我们从具有有效英文的 OSM Wiki 页面9且未映射到自己的类的 OSM 键中创建属性。 在图 2 给出的示例中,wkgs:addrCountry 是从提供实体所在国家/地区的键中推断出来的。 每个类和属性都通过 dcterms:source 链接到 OSM Wiki 页面。


4.2 Schema Alignment with Existing KGs

为了将WorldKG本体与其他现有的本体连接起来,我们确定了Wikidata和DBpedia知识图的等价的OSM标签和类。我们利用我们之前的工作 [12] 中提出的神经类对齐 (NCA) 方法来获得 OSM 标签和已建立知识图谱的类之间的对齐。NCA 是一种两步无监督机器学习方法。 在第一步中,我们训练了一个有监督的神经分类模型,该模型学习根据它们的标签(即键和值)将 OSM 实体分类到各自的知识图类中。训练过程完成后,我们一次用一个标签探测得到的分类模型,并从模型输出层获得类激活。最后,我们链接类激活超过接受阈值 \(th_a\) 的类和标签组合。 NCA 方法的详细描述在 [12] 中提供。

我们为 Wikidata 和 DBpedia 知识图谱训练单独的模型。我们将 Wikidata 和 DBpedia 的NCA接受阈值 \(th_a\) 分别设为0.25和0.4。为了确保WorldKG中标签到类匹配的质量,我们手动验证结果匹配并丢弃任何错误映射的对。表2显示了使用这种方法获得的OSM标记和Wikidata类之间的示例映射。WorldKG类与Wikidata和DBpedia类之间的对齐方式使用owl:equivalentClass属性表示,如图2所示。


4.3 Geographic Entity Example

清单1展示了一个示例实体描述文件.ttl格式。它包含类型信息(wkgs:Restaurant)和各种属性,包括其标签和开放时间。通过属性 wkgs:spatialObject,实体链接到其各自的:geo:SpatialObject。geo:SpatialObject 表示实体的几何类型(sf:Point)和几何的坐标。对于每个实体,我们还提供了将实体链接到原始OSM节点的属性wkgs:osmLink。

image-20220429150426796

清单 1:Turtle 格式的 RDF 三元组,用于 WorldKG 中 wkgs:Restaurant 类型的示例地理实体。




5 WorldKG creation process

在本节中,我们将介绍我们创建 WorldKG 的方法,该方法由 WorldKG 本体和地理实体组成。首先,我们创建WorldKG本体,然后在WorldKG用于描述地理实体。WorldKG创造过程所涉及的步骤如图3所示。


5.1 WorldKG Ontology Creation

WorldKG 创建过程的第一部分旨在创建 WorldKG 本体,包括类、属性、它们的关系以及与 Wikidata 和 DBpedia 中等效类的链接。此过程包括以下步骤:



  • 刮取和过滤键值对:首先,我们从第 4 节介绍的 OSM 映射特征中刮取键值对。从这些键值对中,我们丢弃那些不拥有任何类信息的键值对。这涉及在OSM映射功能中分类为additional attributes、attributes和additional properties的键值对。

  • 推断类层次结构:我们使用键来识别类,使用键值对来推断子类。如果单个值与多个键一起出现,我们手动指定一个合适的子类(例如,对于键值对 building=school 和 amenity=school,我们创建类 BuildingSchool 和 AmenitySchool)。

  • 转换属性和类名:为了遵守既定的 OWL 命名约定 [5],我们以大驼峰格式表示 WorldKG 类,以小驼峰格式表示属性。

  • 与Wikidata和DBpedia的模式对齐。我们通过第4节中描述的模式对齐过程建立了与 Wikidata 和 DBpedia 本体的owl: EquivalentClass关系。


5.2 Knowledge Graph Creation

创建WorldKG本体后,我们现在利用该本体将OSMnodes表示为WorldKG中的地理实体。该过程包括以下步骤:

过滤具有至少一个标签的节点:作为输入,我们使用 Osmium Python 库11从最近的 OSM 转储10中检索所有 OSM 节点。我们过滤掉不包含任何标签的节点,例如node:3051901012。 这些节点是方式和关系的占位符,不太可能与需要节点数据的应用程序相关。

基于 WorldKG 本体过滤键和值:一旦我们收集了 OSM 节点,我们就根据 WorldKG 本体识别它们的类和属性,并丢弃不相关的标签和键。 从 OSM 键 lat 和 long 中,我们用它们的地理坐标来丰富节点。

创建和验证三元组:最后,我们使用 Python 库 RDFLib 创建 RDF 三元组,并提供指向 Wikidata 和 DBpedia 中相应资源的链接。 地理对象表示为 sf:Point 对象,指向坐标为 geo:WKTLiteral 文字。

我们提供 WorldKG 及其本体中地理实体的 RDF 转储。 使用 Virtuoso 三元存储 [13] 的 SPARQL 端点13被设置为查询 WorldKG。




6 WorldKG characteristics & evaluation results

为了说明 WorldKG 的潜力和质量,在本节中,我们展示了 WorldKG 的统计数据以及关于类对齐和类型断言质量的评估结果。


6.1 WorldKG Statistics

如表 3 所示,WorldKG 包含超过 8.2 亿个与 188 个国家和七大洲的地理数据相关的三元组。从 OSM 键中推断出 33 个顶级类,而子类指的是从键值对中提取的特定类,如第 4 节所述。

6.2 Quality of the Class Alignment

正如 [12] 中所报道的,NCA 类对齐方法在 Wikidata 和 DBpedia 知识图谱上以 70% 和 90% 的平均精度获得匹配。如第4.2节所述,我们手动访问NCA产生的类对齐,并放弃任何错误的映射,以防止错误在WorldKG中传播。通过这样做,我们获得了 100% 的类对齐精度。 此手动验证程序不会影响召回值。通过这种方式,召回率分别对应于[12]中报告的Wikidata和DBpedia知识图上63%和81%的原始NCA召回率。


6.3 Quality of the Type Assertion

在本节中,我们评估 WorldKG 中关于 Wikidata 和 DBpedia 类的类型断言的质量。为此,我们分别从映射到 WorldKG 类的 DBpedia 和 Wikidata 本体中随机选择五个类。对于得到的十个类中的每一个,我们随机选择100个WorldKG实体的样本,这些实体通过rdf:type和owl:equivalentClass分配给相应的类。清单2显示了用于为标记为“mine”的Wikidata类Q556186生成样本数据集的SPARQL查询。

image-20220429155128798

对于每个生成的1000实体-类对,我们手动判断类型断言的正确性。这样,我们就可以估计WorldKG中类型断言的准确性。结果如表4所示。

表 4a 和 4b 分别向Wikidata和DBpedia本体类展示了worldkg实体的类型断言的评估结果。正确和错误的列分别表示分配给单个实体的正确或错误的KG类的数量。不可验证的列显示了由于缺乏有关网络上的实体的信息而无法识别正确类别的案例数量。例如,标记为history=monument 的OSM 节点,如果没有更多可用信息,则无法验证它实际上是一个纪念碑14。我们从准确性计算中排除了不可验证的实例。正如我们所观察到的,WorldKG 中精确的标签到类映射有助于对 Wikidata 和 DBpedia 类进行非常高的准确度(在 97.9% 到 100% 之间)。少数错误分配类的情况是由OSM中错误注释的实例造成的。

对于表 4a 和表 4b 所示的所有类别,除了WKS:City之外,WorldKG中的地理实体数量比Wikidata和DBpedia都要多。总的来说,如表5所示,WorldKG中的地理实体数量比 Wikidata和 DBpedia 中的高出两个数量级。

总体而言,WorldKG 管道的高精度类对齐为将 OSM 信息集成到链接的开放数据云中奠定了基础。虽然 OSM 依赖于自愿提供的信息,但没有严格保证正确性,但 WorldKG 仅考虑 OSM 地图特征列表中定义的已建立标签来解决此问题,因此可大规模提供值得信赖的高质量信息。




7 Availability, utility & sustainability

7.1 Availability

7.2 Utility

7.3 Sustainability




8 Example scenario




9.1 KGs containing Geographic Entities

9.2 Ontologies for Geographic data

9.3 Ontology Alignment



推荐阅读
author-avatar
EEeeen_
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有