热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【金猿技术展】Kyligence智能分层存储——PB级规模数据的全场景OLAP

Kyligence技术本项目由Kyligence投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜单及奖项”评选。 数据智能产业创新服务媒体——聚焦数智 · 改变商业智能分层存储

33395f8b8df6d8cf2142b3c1d2338b7d.png

Kyligence技术

本项目由Kyligence投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜单及奖项”评选。

67ceca0d67be1248c7a4de8f8ea66082.png




数据智能产业创新服务媒体

——聚焦数智 · 改变商业



智能分层存储是 Kyligence 提供的高级功能,搭载性能强大的 Clickhouse,帮助用户在未进行预计算的情况下快速冷启动进行查询,可以显著提升超多维度灵活分析和明细查询的性能。同时,基于 HDFS/对象存储和 Clickhouse 的两级存储设计,可全面覆盖各种分析场景,为用户带来基于海量数据下分析探索的更多可能性。

智能分层存储不仅能够支持多维度随机组合的灵活即席查询场景,比如标签分析或用户行为分析等场景,为企业的精细化运营和辅助商业决策带来更大的助力;同时分层存储可对接 Kyligence 统一的模型来管理数据,无缝对接主流商业 BI 工具和 Excel ,赋能业务人员进行分析。

ec7bf92d185ea56ecda54bf402226c65.png
(图片来源:Kyligence)

智能分层存储技术的核心亮点,就在于其分层架构的合理设计以及对不同技术底座的有机融合。在原有聚合分析的高性能之上,Kyligence 更有效提升了明细分析、Ad-Hoc 查询等场景的性能和优势。Kyligence 在产品存储的架构进行了分层设计:

• 第一层:MPP 引擎层——将数据存储在 ClickHouse 引擎中(目前仅存放表索引)

• 第二层:分布式存储层——将数据存储在 HDFS /对象存储中(存放预计算后的聚合索引)

• 第三层:查询下压层——查询可下推到其他数据源,如 SparkSql 以及各类 RDBMS 系统

启用智能分层存储后,用户无需关心数据是如何分布和导入的,只需要根据业务需求进行建立模型,这样可以大幅度地减少建模和模型调优阶段的人力和时间成本支出, 缩减新业务的上线周期, 从而帮助用户更及时地响应业务分析需求。

具体来看智能分层存储支撑的业务场景:

9ac5b47429ef01637344a666088dc833.png
(图片来源:Kyligence)

智能分层存储的分层结构可以很好的支撑企业过去用一套架构不能方便支持的场景,比如现在最流行的用户画像分析场景。此场景下,企业需要具备以下能力:

• 开箱即用的标签管理、筛选、导出、集成能力;

• 支持用户圈选、导出、比对、即席分析、分组统计等场景;

• 支持日均更新百万条标签、数千标签量、上亿用户;

• 支持实时或离线的特征计算,以及海量特征标签存储。

Kyligence 的智能分层存储功能为企业提供了一个高效的解题思路。通过以下能力能从多个维度满足企业在用户画像场景下的需求:

1. 快速圈选,指标聚合:

• 支持用户对数千标签、上亿用户的快速圈选,在圈选后自由进行指标聚合;

2. 开箱即用,无缝导出:

• 提供开箱即用的工具,能够与查询引擎无缝对接;

• 提供标签管理、筛选、圈选后导出能力;

3. 开放生态,保护投资:

• 通过多种接口协议与第三方标签分析平台、BI 平台无缝对接;

• 支持与主流标签生成引擎及存储对接,支持对接业务系统;

• 保护已有技术投资、降低用户学习成本。

除了用户画像以外,智能分层存储还可应用于如用户行为分析、自助式灵活探索分析等在内的诸多应用场景和数据探索方式。

开发团队

·带队负责人:Kyligence CTO 李扬、产品创新中心副总裁李栋等。

·隶属机构:Kyligence

Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。基于机器学习和人工智能等技术,Kyligence 从多云的数据存储中识别和管理最有价值数据,并提供高性能、高并发的数据服务以支撑各种数据分析与应用,同时不断降低 TCO(总体拥有成本)。

Kyligence 已服务中国、美国及亚太的多个金融、制造、零售等行业客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUMC、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。

Kyligence 获得了来自红点、思科、宽带资本、顺为资本、斯道资本、Coatue Management、浦银国际、中金资本旗下基金、歌斐资产、国方资本、ASG、宏兆基金、浦信资本等投资机构的多轮投资。目前公司已经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设办事机构。

相关评价

Kyligence 使得我们的业务团队可以高效、敏捷地访问数据,获取正确的业务信息,从而快速做出精准的业务决策。

——中国银联数据服务部副总经理 王颖卓

我们都知道做数据产品的时候对性能和并发的要求是绕不过的一个槛,而Kyligence 作为我们数据服务的引擎,在数据湖和数据应用之间搭起了一个桥梁,满足了自助查询平台过于低延迟和高并发的要求。

——欣和集团数据平台负责人 王相会

提示:了解更多相关内容,点击文末左下角“阅读原文”链接可直达该机构官网。

3c6c65ec5a68ed193057b74d096b8486.png

7f9830652a559dbb1e6672809a28c696.png

《2021企业数智化转型升级服务全景图/产业图谱1.0版》

42e6ea10be775c7014595a7784bb2914.png

《2021中国数据智能产业图谱3.0升级版》

617be9243eae32e527bc7094e8ef2f4b.png

《2021中国企业数智化转型升级发展研究报告》

3e039532f3e18876c45e173b98a97c67.png

《2021中国数据智能产业发展研究报告》

0633c5ac07c27901b03dd79935d40ebc.png

❷ 创新服务企业榜 

❸ 创新服务产品榜

❸ 最具投资价值榜 

❺ 创新技术突破榜

dae6d8ca28946c1230cf29cac280024f.png

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》

联系数据猿

北京区负责人:Summer

电话:18500447861(微信)

邮箱:summer@datayuan.cn

全国区负责人:Yaphet

电话:18600591561(微信)

邮箱:yaphet@datayuan.cn


推荐阅读
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • [翻译]微服务设计模式5. 服务发现服务端服务发现
    服务之间需要互相调用,在单体架构中,服务之间的互相调用直接通过编程语言层面的方法调用就搞定了。在传统的分布式应用的部署中,服务地 ... [详细]
  • 伸缩性|发生_分布式文件系统设计,该从哪些方面考虑?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了分布式文件系统设计,该从哪些方面考虑?相关的知识,希望对你有一定的参考价值。点击上方关注“ ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • 众筹商城与传统商城的区别及php众筹网站的程序源码
    本文介绍了众筹商城与传统商城的区别,包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]
  • 本文总结了初学者在使用dubbo设计架构过程中遇到的问题,并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题,初学者能够更好地理解和应用dubbo设计架构。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • 【回顾】聚焦DTCC | 巨杉数据库与您相约DTCC 数据库技术大会
    2018年5月10-12日,第九届中国数据库技术大会(DTCC2018)将以“数领先机•智赢未来”为主题,设定2大主会场及20个技术专场,邀请来自国内外互联网、金融、教育等行业百余 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • 开发笔记:Spark Java API 之 CountVectorizer
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了SparkJavaAPI之CountVectorizer相关的知识,希望对你有一定的参考价值。 ... [详细]
author-avatar
瑩影貓貓05
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有