热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

袋鼠云思枢:数驹DTengine,助力企业构建高效的流批一体数据湖计算平台:念动力

本文主要分享【念动力】,技术文章【袋鼠云思枢:数驹DTengine,助力企业构建高效的流批一体数据湖计算平台】为【数栈DTinsight】投稿,如果你遇到相关问题,本文相关知识或能到你。念动力7月

本文主要分享【念动力】,技术文章【袋鼠云思枢:数驹DTengine,助力企业构建高效的流批一体数据湖计算平台】为【数栈DTinsight】投稿,如果你遇到相关问题,本文相关知识或能到你。

念动力

7月28日,以“数智进化,现在即未来”为主题的袋鼠云2022产品发布会于线上正式开幕。发布会上,袋鼠云宣布将集团进行全新升级:从“数字化基础设施供应商”,升级为“全链路数字化技术与服务提供商”,并由袋鼠云产研负责人思枢对外正式发布了全新的四大产品体系:数据智能分析与洞察平台“数雁EasyDigit”、低代码数字孪生平台EasyV、一站式大数据开发与治理平台“数栈DTinsight”和极速湖仓引擎“数驹DTengine”。

file

他表示,“当前,数字化转型已然成为几乎所有企业的必选项,越来越多的企业将数据视为核心资产,加快数字化转型的战略部署。行业的变革、客户的需求不断督促着我们向前,袋鼠云产品研发迭代升级的脚步从未停止。

回顾过去,袋鼠云秉承让数据创造价值的使命,在大数据领域的多个方面实现突破;在未来,袋鼠云要深耕行业,实现业务与数据的双向驱动,进一步夯实企业数字化转型的数据基座,最大化帮助企业释放数据价值。”

思枢重点向大家分享了全新四大产品体系中的坚实底座——袋鼠云自主研发的极速湖仓引擎「数驹DTengine」。

以下为思枢演讲全文:

大家好,我是袋鼠云产研负责人——思枢。非常感谢大家参与袋鼠云2022产品发布会,也很荣幸能够有机会在这里向大家介绍袋鼠云焕新升级后的系列产品。

首先想问大家一个问题,这也是很多数字化企业面临的问题:数据革命时代来临时,如何加快数据价值化呈现?

在这个过程中会面临4个问题:一是部署问题,如何简单快速部署一套大数据组件;二是数据源接入问题,如何对接多源多种异构的数据源,这些海量的结构化,半结构化和非结构化数据如何存储;三是数据处理效率问题,在面对这些海量的数据时,如何降低数据开发处理的门槛,并提高数据分析的效率;四是数据安全问题,数据透出的时候如何做到精细化权限管控。

file

有理由相信,许多数字化企业都迫切需要一套系统来解决上述问题,而数驹也正是由此而生。

数驹是什么?

下面首先请大家先重点看一下数驹的产品架构图:

file

数驹主要包括两个平台产品:一是大数据基础平台——EasyMR,负责Hadoop、Hive、Spark、Flink、Kafka、Hbase等大数据组件的自动化集群部署、监控、迁移、升级等功能。

EasyMR除了能监管Hadoop生态体系组件,也可以根据EasyMR提供的Schema规范自动编排,快速集成客户侧自定义的开发应用。

所以使用EasyMR部署一套Hadoop组件,即使是零技术基础的小白,也可以通过可视化的界面进行一步步的引导操作,半个小时就能完成部署。

这里也说下EasyMR的开源版ChengYing已经在Github上开源,大家有兴趣可以下载试用。

Github:https://github.com/DTStack/chengying;

Gitee:https://gitee.com/dtstack_dev_0/chengying

二是数据湖平台——DataLake,在存储层通过流批一体数据同步框架ChunJun,将结构化、半结构化和非结构化数据统一高效入湖,入湖后对数据文件做统一的规范管理和高效索引,极大的提高查询效率。

在元数据层做统一的Catalog管理,Schema的自动推导,分区的动态生成和表结构演进。并且DataLake在计算层可以支持Flink、Spark、Trino等多种引擎做跨数据存储的联邦查询。

让业务响应更加及时,让企业运转更加高效,数驹诞生的目的就是让企业产生的所有数据,都能够被采集、被存储、被计算,赋予数据全新价值。

数驹好在哪?

除了数据高效入湖、联邦查询外,数驹还有其他几大领先产品特性和技术内核,接下来进行简单分享,帮助大家更好的理解数驹。

产品特性

· 数据入湖:集成流批一体框架ChunJun一键生成湖表信息

· 联邦查询:内置多种数据连接器高效索引,跨源联合分析查询

· 自主可控,安全保障:360°数据访问安全体系,细粒度的数据权限划分

· 极致便捷:一站式服务,开箱即用可视化操作

· 流批一体:统一存储逻辑,统一SQL语言,支持流批一体化分析

· 兼容并蓄,优化提升:对Spark、Flink、Trino等计算组件深度优化加速计算

袋鼠云一直以来都希望帮助企业充分发挥数字化能力,打造数字经济时代助力企业智能化“蝶变”的利器。基于此目标,我们为数驹打造的流批一体主要应用场景,一套代码实现多种业务场景,高效分析。

file

企业平台在支撑上层多种业务应用的过程中,依赖多种计算任务,包含离线和实时,二者独立运行,业务逻辑相同,但因数据延迟、代码语言差异等导致最终结果存在差异,需要额外的人力进行两套计算引擎的维护,造成大量的成本损耗。

基于数驹平台的数据存储管理能力,可以同时支持上层计算引擎批和流的计算能力,帮助企业构建流批一体的数仓平台,实现一套架构同时满足流批业务操作,降低学习、使用、维护成本,提高开发效率。

数驹将如何?

数驹作为袋鼠云今年推出的全新产品,近期有四大规划:

未来规划

·湖表管理优化:周期性的清理过期数据、快照,合并压缩小文件提升读取表的性能

·索引加速:通过bloom index、data skipping index、zorder index等一系列索引构建,提升数据湖查询性能,做到毫秒级响应

· 智能优化:相同特征的查询请求可以直接通过查询缓存和湖表数据变更快速返回结果,做到智能加速

· 智能运维:对事件、监控等运维对象深入透视,通过规则、算法等决策服务及时发布异常警告、自动进行运维决策

file

作为袋鼠云全新产品矩阵的排头兵,数驹将不断进化,继续在追求更极致的查询效率,更快捷的部署运维的道路上砥砺前行,坚持为企业数字化转型保驾护航。

原文来源:VX公众号“数栈研习社” 袋鼠云开源框架钉钉技术交流群(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack

本文《袋鼠云思枢:数驹DTengine,助力企业构建高效的流批一体数据湖计算平台》版权归数栈DTinsight所有,引用袋鼠云思枢:数驹DTengine,助力企业构建高效的流批一体数据湖计算平台需遵循CC 4.0 BY-SA版权协议。


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • GreenDAO快速入门
    前言之前在自己做项目的时候,用到了GreenDAO数据库,其实对于数据库辅助工具库从OrmLite,到litePal再到GreenDAO,总是在不停的切换,但是没有真正去了解他们的 ... [详细]
  • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
    本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
  • 面试经验分享:华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试
    最近有朋友去华为面试,面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败,因为缺乏基础知识。面试问题涉及 ... [详细]
  • 本文介绍了在Ubuntu系统中清理残余配置文件和无用内容的方法,包括清理残余配置文件、清理下载缓存包、清理不再需要的包、清理无用的语言文件和清理无用的翻译内容。通过这些清理操作可以节省硬盘空间,提高系统的运行效率。 ... [详细]
  • 以数据驱动品牌,为出海强势护航
                    原创
    原标题:以数 ... [详细]
  • Hbase1.2.0cdh5.16.2使用PREFIX_TREE编码导致集群压缩队列异常
    Hbase1.X版本中PREFIX_TREE作为BlockEncoding存在bug,会造成RegionServer节点compactionqueue持续升高,甚至影响fl ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 计算成像的原理与应用研究
    本文探讨了计算成像的原理与应用研究。首先介绍了小孔成像实验和软件方面的相关内容。随后从傅里叶光学的角度简单谈了成像的过程。成像是观测样品分布的一种方法,通过成像系统接收光的强度来呈现图像。视网膜作为接收端接收到的图像实际上是由像元组成的矩阵,每个元素代表相应位置像元接收光的强度。大脑通过对图像的分析,得出一系列信息,如识别物体、判断距离等。计算成像是一种采集记录系统,通过处理数据得到样品分布与像的对应关系,用于后续问题的分析。 ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
author-avatar
一心向应丨
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有