热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

国内外知识库

英文:1.WordNet:依赖专家知识,由人工标注,将英文单词按照单词的语义组成一个大的概念网络。由同义词集和描述同义词集

英文:

1.WordNet:依赖专家知识,由人工标注,将英文单词按照单词的语义组成一个大的概念网络。由同义词集和描述同义词集之间的关系构成。词语被聚类为同义词集,每个同义词集表示一个基本的词汇语义概念,词集之间的语义关系包括同义关系、反义关系、上位关系、下位关系、整体关系、部分关系、蕴含关系、因果关系、近似关系等。http://wordnet.princeton.com/

2.Cyc/OpenCyc:依赖专家知识,主要由人工构建,是常识知识图谱。由大量实体和关系以及支持推理的常识规则构成。包含50万实体,接近3万个 关系以及500万事实。openCyc是Cyc的一个子集,可免费使用,包含24万实体,200万事实。Cyc中不仅包含了大量实体和关系,还包含用于推理的常识规则,并提供多种推理引擎,支持演绎推理和归纳推理,同时也提供扩展推理机制的模块。http://www.cyc.com/

3.ConceptNet:常识知识图谱,由大量概念以及描述它们之间关系的常识构成,比较侧重词与词之间的关系,完全免费开放,支持多语言。http://www.conceptnet.io/

4.SIDER(Side Effect Resource):医学知识图谱,主要包含了已经上市的药物及其记录在册的副作用,这些数据可以为相关疾病的治疗提供依据。

5.IMDB(Internet Movie Database):电影知识图谱,与1990年创建,截止012年,共收录132383部作品资料以及4530159位人物资料。

6.MusicBrainz:音乐知识图谱。

7.YAGO:依赖Wikipedia和WordNet,是百科知识图谱。YAGO的实体关系数据都依赖人工严格定义的规则从Wikipedia中自动抽取产生,包括实体之间的上下位(IS-A)和实体属性等关系。使用RDFS语言与OWL语言描述。http://mpii.de/yago

8.Freebase:依靠Wikipedia+领域知识+群体智能方法,是百科知识图谱。包含5813万实体、32亿个实体关系三元组,2000多个概念类型和近4万个属性,是公开可获取的规模最大的知识图谱之一。目前freebase已经停止更新,已有的freebase数据可以下载得到。http://www.freebase.com/

9.DBpedia:Wikipedia和专家知识,百科知识图谱。主要从Wikipedia中的结构化数据中抽取知识。英文版DBpedia描述了600万个实体,其中460万的实体包含摘要信息,153万实体具有地理位置信息,160的实体具有描述信息。另外,520万个实体可以链接到本体上,包括150万的任务,81万的地点、49万的作品、27.5万的机构、30.1万的物种和5000的疾病。总共包含95亿事实三元组。http://depedia.org/

10.Wikidata:freebase+群体智能,百科知识图谱。目标是构建全球最大的免费知识库。http://www.wikidata.org/

11.NELL:依赖机器学习技术构建。本身是一套语言学习系统,每天不间断地执行两项任务:阅读和学习。阅读任务是从文本中获取知识,并添加到内部知识库;学习任务是使用机器学习算法获取新知识,巩固和扩展对知识的理解。NELL可以抽取大量的事实(实体关系三元组),并标注所抽取的迭代轮数、时间及系统置信度,可以供人工进行校验。http://rtw.mlcmu.edu/

12.BabelNet:多语言词汇级的语义网络和本体。依赖WordNet+Wikipedia。主要特点是将Wikipedia链接到最常用的英语类义词典WordNet上。它所定义的语义关系主要来源于:Wordnet中所定义的语义关系,总共36.4万条关系;Wikipedia中非特定的相关关系,例如,国籍、首都等,总共大约3.8亿条关系。集成了Wordnet在词语关系上的优势和Wikipedia在多语言语料方面的优势,构建成功了目前 最大规模的多语言词典知识库。http://babelnet.org/

13.Google Knowledge Graph:基于Freebase

14.Knowledge Vault:基于机器学习。相较于Google之前基于freebase的知识图谱版本,Knowledge Vault不再采用众包的方式进行图谱构建,而是试图通过算法自动搜集网上信息,通过机器学习方法对已有的结构化数据进行集成和融合,将其变成可用知识。已收集了16亿个事实,其中2.71亿事实具有高置信度,其准确率在90%左右。

15.WOE:基于机器学习自动构建

16.TextRunner:致力于从文本中通过识别句子的谓语抽取所有的二元关系。抽取的范围是开放域文本。

16.ReVerb:是TextRunnner的升级版。基于机器学习自动构建,致力于从文本中通过识别句子的谓语抽取所有的二元关系。

17.FrameNet:是一个经典的基于框架表示的知识库,针对词汇级的概念进行框架的建模,它认为大部分词汇的语义能够通过语义框架的形式进行表示。它定义了1000多个不同的框架、10000多个词法单元,总计标注了150000个例句。还定义了8种关系:继承关系、视角关系、子框架关系、前置关系、使动关系、因果关系、使用关系和参考关系。

18.微软Concept Graph: 以概念层次体系为中心的知识图谱。以概念定义和概念之间的IsA关系为主。其主要通过从互联网和网络日志中挖掘来构建,可以用于短文本理解和语义消岐中。http://concept.research.microsoft.com

19.IASO:英文抗生素药物医学知识图谱,由北京大学互联网信息工程研发中(CIRE)开发,IASO是利用自然语言处理与文本挖掘技术,基于大规模医学文本数据,以人机结合的方式研发的英文药物医学知识图谱。IASO知识图谱基于DO,IDO,NCBI,HPO和DrugBank等数据库,以及在线百科,权威医学文献等高质量医学数据资源构建而成的。涵盖507种传染病及其治疗方法,332个不同的感染部位,936种系统相关症状,371种并发症,838,407种细菌,341种抗生素及其介绍,1,504对抗生素和细菌之间的反应速率(抗菌谱),431对药物相互作用关系,以及86对抗生素特异性群体的禁忌关系。http://www.iasokg.com/

 


中文:

1.HowNet:典型的语言认知知识图谱/常识知识库,致力于描述认知世界中人们对词语概念的理解,基于词语义原,揭示词语的最小语义单元的含义。以概念为中心,基于义原描述了概念与概念之间以及概念所具有的属性之间的关系,每一个概念可以又多种语言的词汇进行描述。目前包含800多个义原,11000个词语。

2.CN-DBpedia:由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科,其前身是复旦GDM中文知识图谱,是国内最早推出的也是目前最大规模的开放百科中文知识图谱,涵盖数千万实体和数亿级的关系。CN-DBpedia以通用百科知识沉淀为主线,以垂直纵深领域图谱积累为支线,致力于为机器语义理解提供了丰富的背景知识,为实现机器语言认知提供必要支撑。CN-DBpedia已经从百科领域延伸至法律、工商、金融、文娱、科技、军事、教育、医疗等十多个垂直领域,为各类行业智能化应用提供支撑性知识服务。http://kw.fudan.edu.cn/cndbpedia/intro/

3.zhishi.me:目前,它涵盖了三大中国百科全书:百度百科,互动百科和中文维基百科。其中,14307056个实体来自百度百科,5521163个实体来自互动百科,903462个实体来自中文维基百科。http://zhishi.me

4.cnSchema: 一个基于社区维护的开放知识图谱Schema标准。cnSchema分类、数据类型的词汇集包括了上千种概念、属性和关系等常用概念定义,以支持知识图谱数据的通用性、复用性和流动性。http://cnschema.rog

5.中医药知识服务平台:集成了中医药领域的领域本体、术语资源(包括中医药学语言系统、中医临床术语集、中医古籍语言系统等),以及证候、中药、方剂等领域的知识库,面向中医专家提供知识检索、知识问答、知识浏览等服务。http://www.tcmkb.cn

后续有发现其它知识图谱会补充进来。


推荐阅读
  • 如何使用Java获取服务器硬件信息和磁盘负载率
    本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务,并获取服务器的磁盘信息,并将结果输出。然后在本地使用JS编写一个AJAX脚本,远程请求服务端的程序,得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • Metasploit攻击渗透实践
    本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法
    本文介绍了解决nginx启动报错epoll_wait() reported that client prematurely closed connection的方法,包括检查location配置是否正确、pass_proxy是否需要加“/”等。同时,还介绍了修改nginx的error.log日志级别为debug,以便查看详细日志信息。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有