热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

知识图谱基础知识摘要

知识图谱基础知识摘要-什么是知识图谱?简单理解就是一个图,节点是各种各样的现实当中的实体,如人、物、组织等,线是反应节点之间的关系或者属性。如图所示。知识图谱的作用如今知识

什么是知识图谱?

简单理解就是一个图,节点是各种各样的现实当中的实体,如人、物、组织等,线是反应节点之间的关系或者属性。如图所示。

知识图谱的作用

如今知识图谱广泛应用于聊天机器人,推荐系统等方面,而在金融、农业、电商、医疗健康、环境保护、工业制造场景等各种不同的垂直领域,得益于知识图谱的先验知识的特性,均得到了广泛的应用。说的抽象点,知识图谱就是把离散的符号表述,变成了连续的向量表示的巨大的知识网络图。

知识图谱的表示和存储

目前有两种方法,一种是 RDF ,它是由很多三元组组成的,优点是易于发布分享,缺点是不支持实体或者关系拥有属性,如果非要加属性则需要做特殊的修改,目前多用于学术场景,常见的有 Jena 。另一种方法是图数据库,主要是由高校的查询和搜索,,如 Neo4j 应用最广泛,界面比较清晰,更容易表达现实的业务场景中的关系,数据量在不过亿级的情况下效果还是可以的,唯一的缺点就是不支持分布式。

知识抽取

构建知识图谱的数据无非就两个来源:一个是公司内部的业务数据,一般都存在结构化的数据库中,可以直接拿来用。另一种是需要通过爬虫从网上抓取的网页,或者外部提供的数据,此类数据比较杂乱无结构,需要进行必要的处理。所以难点主要来源于后者。主要涉及到自然语言的相关技术,如实体命名识别,关系抽取,实体统一,指代消解。如下图使用非结构化的文本构建知识图谱。

上面的涉及的几项 NLP 技术都用到了

搭建知识图谱

常见误区:在不涉及数据的重要性情况下,很多人认为搭建一个知识图谱系统的重点在于算法和开发。但事实并不是想象中的那样,其实最重要的核心在于对业务的理解以及对知识图谱本身的设计,并且还要对未来业务有一定的预估,这就类似于对于一个业务系统,数据库表的设计尤其关键,而且这种设计绝对离不开对业务的深入理解以及对未来业务场景变化的预估。

主要的步骤:

  1. 明确自身业务需不需要知识图谱的支持

  2. 定义具体的业务问题

  3. 数据的收集和预处理

    常见问题:

     1. 我们已经有哪些数据? 
     2. 虽然现在没有,但有可能拿到哪些数据? 
     3. 其中哪部分数据可以用来降低风险? 
     4. 哪部分数据可以用来构建知识图谱?
     5. 注意并不是所有跟目标相关的数据都要进入知识图谱
     
    
  4. 知识图谱的设计

    常见问题:

     1. 需要哪些实体、关系和属性? 
     2.  哪些属性可以做为实体,哪些实体可以作为属性? 
     3. 哪些信息不需要放在知识图谱中?
     
    

    设计原则:

     业务原则:一切要从业务逻辑出发,并且通过观察知识图谱的设计也很容易推测其背后业务的逻辑,而且设计时也要想好未来业务可能的变化。好的设计很容易让人从图谱中看到业务本身的逻辑。
     分析原则:不需要把跟关系分析无关的实体放在图谱当中。
     效率原则:在于把知识图谱设计成小而轻的存储载体,对关系分析无关紧要的信息放在传统的关系型数据库当中。
     冗余原则:有些重复性信息、高频信息可以放到传统数据库当中。
    
  5. 知识图谱的存储

    存储上我们要面临存储系统的选择,但由于我们设计的知识图谱带有属性,图数据库可以作为首选。但至于选择哪个图数据库也要看业务量以及对效率的要求。如果数据量特别庞大,则 Neo4j 很可能满足不了业务的需求,这时候不得不去选择支持准分布式的系统比如 OrientDB , JanusGraph(原 Titan) 等,或者通过效率、冗余原则把信息存放在传统数据库中,从而减少知识图谱所承载的信息量。 通常来讲 Neo4j 已经足够了。

  6. 上层应用的开发以及系统的评估

    构建好知识图谱,根据需求,从图谱中挖掘有价值的信息。从算法的角度来讲,有下面三种不同的场景:一种是基于规则的,常见的应用分别是不一致性验证、基于规则的特征提取、基于模式的判断;另一种是基于概率的,常见的应用有社区挖掘、聚类等;还有一种是基于动态网络的,常见的应用有 T 时刻到 T+1 时刻风险变化等。

    相比规则的方法论,基于概率的方法的缺点在于:需要足够多的数据。如果数据量很少,而且整个图谱比较稀疏(Sparse),基于规则的方法可以成为我们的首选。尤其是对于金融领域来说,数据标签会比较少,这也是为什么基于规则的方法论还是更普遍地应用在金融领域中的主要原因。

    鉴于目前 AI 技术的现状,基于规则的方法论还是在垂直领域的应用中占据主导地位,但随着数据量的增加以及方法论的提升,基于概率的模型也将会逐步带来更大的价值。

结尾

首先,知识图谱的主要作用还是在于分析关系,尤其是深度的关系。所以在业务上,首先要确保它的必要性,其实很多问题可以用非知识图谱的方式来解决。

知识图谱领域一个最重要的话题是知识的推理。 而且知识的推理是走向强人工智能的必经之路。但很遗憾的,目前很多语义网络的角度讨论的推理技术(比如基于深度学习,概率统计)很难在实际的垂直应用中落地。其实目前最有效的方式还是基于一些规则的方法论,除非我们有非常庞大的数据集。

最后,还是要强调一点,知识图谱工程本身还是业务为重心,以数据为中心。不要低估业务和数据的重要性。

本文参考:blog.csdn.net/lzw17750614…


推荐阅读
  • 智能投顾机器人:创业者如何应对新挑战?
    随着智能投顾技术在二级市场的兴起,针对一级市场的智能投顾也逐渐崭露头角。近日,一款名为阿尔妮塔的人工智能创投机器人正式发布,它将如何改变投资人的工作方式和创业者的融资策略? ... [详细]
  • 探索电路与系统的起源与发展
    本文回顾了电路与系统的发展历程,从电的早期发现到现代电子器件的应用。文章不仅涵盖了基础理论和关键发明,还探讨了这一学科对计算机、人工智能及物联网等领域的深远影响。 ... [详细]
  • 本文作者分享了在阿里巴巴获得实习offer的经历,包括五轮面试的详细内容和经验总结。其中四轮为技术面试,一轮为HR面试,涵盖了大量的Java技术和项目实践经验。 ... [详细]
  • 智能车间调度研究进展
    本文综述了基于强化学习的智能车间调度策略,探讨了车间调度问题在资源有限条件下的优化方法。通过数学规划、智能算法和强化学习等手段,解决了作业车间、流水车间和加工车间中的静态与动态调度挑战。重点讨论了不同场景下的求解方法及其应用前景。 ... [详细]
  • 江苏启动鲲鹏生态产业园首批应用孵化项目
    2019年9月19日,在华为全联接大会上,江苏鲲鹏生态产业园正式启动了首批鲲鹏应用孵化项目。南京市委常委、江北新区党工委专职副书记罗群等多位嘉宾出席并见证了这一重要时刻。 ... [详细]
  • 2018年3月31日,CSDN、火星财经联合中关村区块链产业联盟等机构举办的2018区块链技术及应用峰会(BTA)核心分会场圆满举行。多位业内顶尖专家深入探讨了区块链的核心技术原理及其在实际业务中的应用。 ... [详细]
  • 云计算的优势与应用场景
    本文详细探讨了云计算为企业和个人带来的多种优势,包括成本节约、安全性提升、灵活性增强等。同时介绍了云计算的五大核心特点,并结合实际案例进行分析。 ... [详细]
  • 创邻科技成功举办Graph+X生态合作伙伴大会,30余家行业领军企业共聚杭州
    9月22日,创邻科技在杭州举办“Graph+X”生态合作伙伴大会,汇聚了超过30家行业头部企业的50多位企业家和技术领袖,共同探讨图技术的前沿应用与发展前景。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • 在PHP后端开发中遇到一个难题:通过第三方类文件发送短信功能返回的JSON字符串无法解析。本文将探讨可能的原因并提供解决方案。 ... [详细]
  • 从码农到创业者:我的职业转型之路
    在观察了众多同行的职业发展后,我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师,并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]
  • 本文详细介绍了头条搜索引擎对网站内容的抓取、解析及索引过程,探讨了收录量与索引量的区别,并提供了实用工具和技巧来监控网站的收录情况。通过这些信息,网站管理员可以更好地理解搜索引擎的工作机制,优化网站内容以提高其在搜索结果中的可见性。 ... [详细]
  • 本文深入探讨了MySQL中常见的面试问题,包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析,帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]
  • 远程过程调用(RPC)是一种允许客户端通过网络请求服务器执行特定功能的技术。它简化了分布式系统的交互,使开发者可以像调用本地函数一样调用远程服务,并获得返回结果。本文将深入探讨RPC的工作原理、发展历程及其在现代技术中的应用。 ... [详细]
author-avatar
停留的烟蒂_984
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有