作者:百度地震姜常宏 | 来源:互联网 | 2023-07-17 11:04
清华同方KBase全文数据库管理系统(简称KBase)是以管理海量的文本、网页、档案、文献、办公文档等非结构化数据为主,具备中文智能信息处理能力的国产数据库管理系统。KBase具有
清华同方KBase全文数据库管理系统(简称KBase)是以管理海量的文本、网页、档案、文献、办公文档等非结构化数据为主,具备中文智能信息处理能力的 国产数据库管理系统。KBase具有优异的全文检索性能和强大的海量非结构化数据存储管理能力,拥有超过500万词汇量的、大百科式的概念关系词典,具备 业界领先的中文智能信息处理能力。
KBase是清华同方在承建中国国家知识基础设施(CNKI)这一国家级大规模信息化工程的过程中,依托清华大学科技和人才优势,厚积薄发自主研发而成 的。KBase作为CNKI工程的运营支撑平台,管理着目前全球最大的中文知识信息资源数据库,每天提供千万人次的信息检索服务。同时,KBase 已成 功应用于包括欧美发达国家在内的全球5000多家机构用户,其优异的性能和稳定性,受到用户的一致好评。
KBase 解决了非结构化信息处理的基本问题,可用于任何处理非结构化信息的行业应用,如数字图书馆、数字档案馆、电子政务、企业搜索、知识管理、内容管理、情报分析、互联网不良信息监控、信息资源开发利用、门户建设等等。
主要特点
高效、准确的全文检索
KBase全文检索速度高达500G/S,处于业界领先地位。同时,KBase基于先进的高维索引技术在国际上首次将相似检索功能真正做到了实用化水平: 速度高达百万级文献量毫秒级响应。
KBase集成先进的全切分切词算法,很好地解决了歧义切分问题,可将“原子结合成分子”正确地切分成“原子/结合/成/分子”而不是“原子/结合/成分/子”,从而使KBase与同类产品相比具有更高的查准率、查全率。
海量非结构化数据管理
KBase 具有强大的海量非结构化数据存储管理能力,单表管理的记录数可达40亿,单表管理的数据容量可达TB级(分区表可达PB级)。KBase 同时支持多机群 集,实现数据的分布式存储。KBase作为CNKI工程的运营支撑平台,目前管理着全球最大的中文知识信息资源数据库,每天提供千万人次的信息检索服务, 其优异的性能和稳定性,受到广大CNKI用户的广泛赞誉。
功能强大的关系数据库全文检索网关
KBase 提供了对Oracle、DB2、SQL Server、Sybase、Informix等主流关系数据库管理系统(统称RDBMS)的全文检索网关,实现 了RDBMS和KBase 服务器之间的数据共享和实时同步,使用户在享有RDBMS卓越的数据处理功能的同时,拥有KBase优秀的全文检索功能。基于 KBase 关系数据库全文检索网关,可以整合多种异构数据源,实现企业级信息资源的统一搜索。
大规模并发处理能力
KBase支持多服务器群集,可将多个独立的KBase服务器虚拟整合成一个整体,实现高效的分布式计算,大大提高系统的并发处理能力。
先进的中文智能信息处理能力
KBase拥有超过500万词汇量的、大百科式的概念关系词典,集成Smart TextMiner文本挖掘引擎和NLP自然语言处理引擎,可提供自动分类、自动聚类、关键词自动标引、自动文摘、信息过滤、关联规则挖掘等多种实用功能。
易用的检索语言
KBase充分考虑用户使用习惯,提供类似SQL的查询语言—KSQL,设计更加人性化。
完整的应用开发接口
KBase提供.Net组件、COM组件、Java组件、ODBC、ADO等数据库访问接口,并且针对有较高底层开发要求的用户提供完整的二次开发接口。KBase 同时支持Z39.50、OAI、OpenURL等访问接口。
支持多种编码
KBase提供对 GB2312、BIG5、GBK、GK18030、UNICODE等多种编码的直接支持。
体系结构
性能指标
KBase各项性能指标均达到国际先进水平:
· 全文检索速度: 500GB /秒
· 相似检索速度: 100万文献量/20毫秒
· 单表支持最大记录个数:40亿
· 单表支持最大容量:8 TB(分区表最大容量 2PB)
· 可同时跨库检索最大数:255个
· 拥有500万数量级的概念关系词典
转:https://blog.51cto.com/3266522/2119002