作者:追麾 | 来源:互联网 | 2023-08-26 15:04
Apache软件基金会(Apache Software Foundation, ASF)是世界上最大的开源软件基金会,Apache目前拥有超过350个开源项目。
TinkerPop 是Apache基金会旗下的顶级项目,是一个面向实时事务处理以及批量、分析型图分析的图计算框架,其核心模块是TinkerPop Gremlin引擎。百度安全自研的图数据库HugeGraph实现了Apache TinkerPop3框架及完全兼容Gremlin查询语言,近期得到Apache TinkerPop的正式官方认证,并纳入其提供商列表大力推广。
HugeGraph是我国首个自主开源图数据库
说起图乃至于图论,在于图是对现实世界的抽象,它通过点和边来描述实体之间的关系,构成一个大型语义网络,提供一种从关系的视角来观察世界的直观方法。而传统的关系型数据库,在复杂数据关系运算处理上表现很差,随着数据量及复杂度的增加,关系型数据库极难在有效的时间内计算出结果。图数据库则更好的利用数据间的连接,将数据关系映射为实体与边的图模型结构,并提供高效的图查询语言,在海量数据的存储,关联关系分析与挖掘上更具备优势。
HugeGraph是我国首个自主开源的图数据库系统,TinkerPop评价HugeGraph为高效、易用、可扩展的图数据,因此吸引了大量用户使用它来进行社会网络分析、反诈欺和知识图谱制作(HugeGraph attracts a large amount of users and has been widely used in social network analysis, fraud detection and knowledge graph)。
HugeGraph 支持千亿以上的顶点和边快速导入,支持在线与离线分析,提供毫秒级的关联关系查询能力,并可与 Hadoop、Spark 等大数据平台集成,具有丰富的API以及完善的工具链组件,助力用户构建基于图数据库之上的应用和产品,具体而言HugeGraph图数据库具有以下优势:
1、易用:HugeGraph 支持 Gremlin 图查询语言与 Restful API,同时提供图检索常用接口,具备功能齐全的周边工具,轻松实现基于图的各种查询分析运算。2、高效:HugeGraph 在图存储和图计算方面做了深度优化,提供多种批量导入工具,轻松完成千亿级数据快速导入,通过优化过的查询达到图检索的毫秒级响应。支持数千用户并发的在线实时操作。3、通用:HugeGraph 支持 Apache Gremlin 标准图查询语言和 Property Graph 标准图建模方法,支持基于图的 OLTP 和 OLAP 方案。集成 Apache Hadoop 及 Apache Spark 大数据平台。4、可扩展:支持分布式存储、数据多副本及横向扩容,内置多种后端存储引擎,也可插件式轻松扩展后端存储引擎。5、开放:HugeGraph 代码开源,客户可自主修改定制,选择性回馈开源社区。HugeGraph图数据库基于解决百度安全所面对的反欺诈、威胁情报、黑产打击等业务的图数据存储和建模分析需求而诞生,在此基础上逐步扩展及支持了更多的通用图应用,并在2018年开源成为百度的七大安全开源技术之一。HugeGraph由HugeGraph-Server、HugeGraph-Client、HugeGraph-Loader、HugeGraph-Hubble与HugeGraph-Tools等组件构成,可通过批量方式快速导入数据、扫描并分析现有数据自动生成Graph Schema创建语言,基于Web的可视化IDE环境,记录Gremlin查询可视化展示图的关联关系,是目前功能最丰富的开源图数据库。强大的功能进而使HugeGraph在深度关系探索、关联分析、路径搜索、特征抽取、数据聚类、社区检测、知识图谱等图分析上高歌猛进,适用业务领域有如网络安全、电信诈骗、金融风控、广告推荐、社交网络和智能机器人等应用场景。相对于传统的关系型数据库,新型的图数据库就像是数据中心里的“新基建”。大数据时代下非结构化数据处理需求以及高并行运算,带来数据库行业技术革新。在中国目前的数据库市场里,据Gartner报告显示,国外品牌占有90%以上的份额。而非结构化数据使国产厂商存在弯道加速的机会,可以从数据挖掘的视角去审视和发现大数据中存在的有价值的关系。此外,即便互联网每日诞生海量的数据,但数据积累本身仅仅是图计算的充分条件,而真正催生图计算的是新型数据组织形式,它蕴含着创新商业逻辑和精益业务逻辑的兴起。2019年初 Gartner的数据与分析峰会上将图数据列为十大数据分析趋势之一,并认为自2022年起全球图处理及图数据库的应用都将以100%的速度迅猛增长。