热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据专家手把手教你打造实时数据湖

数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长、数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,

7c635792e29a6ee7dd8f8007dcdf526c.png

数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长、数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,这使得通用计算引擎(如Spark、Flink)、交互式分析系统(如ClickHouse)、数据湖框架(如Iceberg)等技术快速发展。

作为专业的开发者社区,DEEPNOVA致力于促进技术交流、开拓技术视野、建立技术生态,并积极拥抱开源社区,针对新一代的数据湖、实时数仓等开源技术深入研究,并实现部分功能的优化。

为了与开发者更好地进行技术探讨交流,4月16日 14:00—17:30,DEEPNOVA 联合Iceberg社区共同推出“DEEPNOVA MEETUP Online”。此次活动主题为《基于 Iceberg 打造实时数据湖》,汇聚了DEEPNOVA社区专家团力量,将带领听众了解完整的Iceberg技术发展史及在国产化数据中的应用与实践,真正做到将优质技术内容回馈社区。

1

核心内容

1. 技术解读:《Apache Iceberg过去、现状及未来》

分享嘉宾:Apache Iceberg和HBase PMC成员 胡争

内容亮点:Apache Iceberg作为一种开放的标准化数据湖表格式,已经被国内外众多大厂选择和应用。近期Apache Iceberg计划在AWS之上推出商业版的数据湖存储服务。与此同时,Snowflake、AWS、Cloudera等公司纷纷发布Iceberg数据湖。事实证明,经过几年的发展,Apache Iceberg取得了飞速的发展和巨大的成功。本次分享内容包括Iceberg开源历程,以及当下和未来重点发力的技术方向。

2. 技术实践:《网易湖仓管理系统Arctic》

分享嘉宾:网易数据湖和实时计算团队负责人 马进

内容亮点:Arctic 是网易自研的基于 Iceberg 的湖仓管理系统。同时,网易通过Flink和Arctic构建了流批一体的数据生产链路,实时离线统一的数仓。在 Iceberg 基础之上,Arctic具有支持主键、结构自优化、数据一致性、实时订阅和实时join等特性。本次分享将主要介绍 Arctic 的核心设计思路。

3. 技术实践:《FastData DLink 对Iceberg索引的优化与实践》

分享嘉宾:滴普科技存储引擎部总监 张敢

内容亮点:Z-Order是一种可以将多维数据压缩到一维的技术,在时空索引以及图像方面使用较广,对多字段进行排序,对原始数据重新布局, 减少不必要的I/O,进而提升查询速度。基于Iceberg 社区提出的主键去重方案,DEEPNOVA 社区又利用 BloomFilter 进行了优化,对 eq-delete 文件进行过滤,减少内存占用,提升小文件合并效率。本次分享将主要解读FastData在索引技术上的优化能力。

4. 技术实践:《FastData DLink基于Iceberg 构建实时数据湖的优化与实践》

分享嘉宾:滴普科技数据库内核开发工程师 简勇华

内容亮点:Iceberg CDC能力是支持构建实时数仓的核心能力。DEEPNOVA 社区对 Iceberg CDC 功能进行了完整实现,并实现Hive历史数据快速迁移入湖,对社区PR 生成元数据的方式进行了并行优化,提升数倍的迁移性能。本次分享将围绕如何构建实时数仓,展示FastData的技术优势。

44b4eea0343c8700261cb025d994e1f8.png

听众收益:

1. 了解Apache Iceberg的架构原理、特性及应用场景

2. 基于Iceberg实现不同功能的技术优化能力及其业务价值

3. 开放的技术交流社区,与资深技术专家共同探讨湖仓技术

我们坚信技术的前进一定是无数技术从业者一起努力的结果,也衷心希望DEEPNOVA社区能成为技术爱好者们的学习交流平台,借助更多人的力量将社区建设得更加完善。我们也将秉持开放、共享的社区精神,通过更多的技术分享、直播活动等方式回馈社区,让数字技术为世界带来无限可能。

欢迎扫码观看直播,转发分享直播间邀约榜前三名,还将拥有DEEPNOVA专属礼盒。

8a59bcafd8406f6ae9c88794f6491b55.png

3381b55a218414c8f660780b69842703.png

f7bce02a559867f68bd73e0f79d50dd0.png

 Trino分析引擎如何在数据湖上进行极速分析?

f0b8b282ae297540eda1122c14ff6928.png

实时分析型数据库DLink支持Iceberg维度表Lookup join

c622f0d6a226f54d1132860de0e90efc.png

如何利用湖仓一体架构处理多模数据的存储和分析?

285fdf1a56d2014805a6b46118b093a4.png

分析型数据库FastData for DLink有何优势?

成功案例

先进制造    

重庆机电 |九洲电器 | 科伦药业

政务双碳    

智慧龙华 | 攀枝花东区| 深智城

能源出行    

长安新能源 | 华胜集团

消费流通    

百丽国际 | 秀域集团 | 乖宝宠物

商业综合    

广州城投 | 新华联 | 华发股份

智慧文旅    

拈花湾文旅 | 大横琴泛旅游

更多行业    

新建元集团 | 特驱农牧

点击下方阅读原文,解锁活动详情



推荐阅读
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • 深入解析GBASE系列中的列存储分析型数据库GBase 8a
    市场定位方面,GBase 8a 是 GBASE 系列中的一款高性能列存储分析型数据库,专为大规模数据仓库和实时分析场景设计。该数据库采用先进的列式存储技术,能够显著提升查询性能和数据压缩效率,适用于金融、电信、互联网等行业的大数据分析需求。此外,GBase 8a 还支持分布式部署,具备高可用性和可扩展性,能够满足企业级应用的严苛要求。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 深入解析 Lifecycle 的实现原理
    本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理,帮助开发者更好地理解和使用 Lifecycle,避免常见的内存泄漏问题。 ... [详细]
  • 浏览器作为我们日常不可或缺的软件工具,其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程,帮助读者更好地理解这一关键技术组件,揭示其内部运作的奥秘。 ... [详细]
  • Python错误重试让多少开发者头疼?高效解决方案出炉
    ### 优化后的摘要在处理 Python 开发中的错误重试问题时,许多开发者常常感到困扰。为了应对这一挑战,`tenacity` 库提供了一种高效的解决方案。首先,通过 `pip install tenacity` 安装该库。使用时,可以通过简单的规则配置重试策略。例如,可以设置多个重试条件,使用 `|`(或)和 `&`(与)操作符组合不同的参数,从而实现灵活的错误重试机制。此外,`tenacity` 还支持自定义等待时间、重试次数和异常处理,为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]
  • 如何撰写适应变化的高效代码:策略与实践
    编写高质量且适应变化的代码是每位程序员的追求。优质代码的关键在于其可维护性和可扩展性。本文将从面向对象编程的角度出发,探讨实现这一目标的具体策略与实践方法,帮助开发者提升代码效率和灵活性。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • Redis概念
    Redis概念:redis是一款高性能的NOSQL系列的非关系型数据库什么是NOSQLNOSQL(NoSQLNotOnlySQL),意即不仅仅是SQL,是一项全新的数据库理念, ... [详细]
  • Springboot 集成spring cache缓存的解决方案_java
    这篇文章主要介绍了Springboot 集成spring cache缓存,使用缓存最关键的一点就是保证缓存与数据库的数据一致性,本文给大家介绍最常用的缓存操作模式,对Springb ... [详细]
  • 本文深入探讨了Hibernate框架中乐观锁和悲观锁的机制及其多态特性。乐观锁假设数据在大多数情况下不会发生冲突,因此在读取数据时不加锁,而是在更新时检查版本号以确保数据未被修改。相比之下,悲观锁则认为数据在并发环境下容易产生冲突,因此在读取数据时立即加锁,以防止其他事务访问同一数据,从而避免潜在的数据不一致问题。文章还详细分析了这两种锁机制在实际应用中的优缺点,并介绍了Hibernate中的多态特性如何与锁机制结合,以实现更高效的数据管理和并发控制。 ... [详细]
  • 本文详细介绍了在 Oracle 数据库中使用 MyBatis 实现增删改查操作的方法。针对查询操作,文章解释了如何通过创建字段映射来处理数据库字段风格与 Java 对象之间的差异,确保查询结果能够正确映射到持久层对象。此外,还探讨了插入、更新和删除操作的具体实现及其最佳实践,帮助开发者高效地管理和操作 Oracle 数据库中的数据。 ... [详细]
author-avatar
海风
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有