热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据专家手把手教你打造实时数据湖

数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长、数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,

7c635792e29a6ee7dd8f8007dcdf526c.png

数据处理技术为各行各业的业务解决了海量存储和分析的需求,但数据量的爆发式增长、数据类型的不断丰富,对数据处理技术和时效性都提出了更高的要求,这使得通用计算引擎(如Spark、Flink)、交互式分析系统(如ClickHouse)、数据湖框架(如Iceberg)等技术快速发展。

作为专业的开发者社区,DEEPNOVA致力于促进技术交流、开拓技术视野、建立技术生态,并积极拥抱开源社区,针对新一代的数据湖、实时数仓等开源技术深入研究,并实现部分功能的优化。

为了与开发者更好地进行技术探讨交流,4月16日 14:00—17:30,DEEPNOVA 联合Iceberg社区共同推出“DEEPNOVA MEETUP Online”。此次活动主题为《基于 Iceberg 打造实时数据湖》,汇聚了DEEPNOVA社区专家团力量,将带领听众了解完整的Iceberg技术发展史及在国产化数据中的应用与实践,真正做到将优质技术内容回馈社区。

1

核心内容

1. 技术解读:《Apache Iceberg过去、现状及未来》

分享嘉宾:Apache Iceberg和HBase PMC成员 胡争

内容亮点:Apache Iceberg作为一种开放的标准化数据湖表格式,已经被国内外众多大厂选择和应用。近期Apache Iceberg计划在AWS之上推出商业版的数据湖存储服务。与此同时,Snowflake、AWS、Cloudera等公司纷纷发布Iceberg数据湖。事实证明,经过几年的发展,Apache Iceberg取得了飞速的发展和巨大的成功。本次分享内容包括Iceberg开源历程,以及当下和未来重点发力的技术方向。

2. 技术实践:《网易湖仓管理系统Arctic》

分享嘉宾:网易数据湖和实时计算团队负责人 马进

内容亮点:Arctic 是网易自研的基于 Iceberg 的湖仓管理系统。同时,网易通过Flink和Arctic构建了流批一体的数据生产链路,实时离线统一的数仓。在 Iceberg 基础之上,Arctic具有支持主键、结构自优化、数据一致性、实时订阅和实时join等特性。本次分享将主要介绍 Arctic 的核心设计思路。

3. 技术实践:《FastData DLink 对Iceberg索引的优化与实践》

分享嘉宾:滴普科技存储引擎部总监 张敢

内容亮点:Z-Order是一种可以将多维数据压缩到一维的技术,在时空索引以及图像方面使用较广,对多字段进行排序,对原始数据重新布局, 减少不必要的I/O,进而提升查询速度。基于Iceberg 社区提出的主键去重方案,DEEPNOVA 社区又利用 BloomFilter 进行了优化,对 eq-delete 文件进行过滤,减少内存占用,提升小文件合并效率。本次分享将主要解读FastData在索引技术上的优化能力。

4. 技术实践:《FastData DLink基于Iceberg 构建实时数据湖的优化与实践》

分享嘉宾:滴普科技数据库内核开发工程师 简勇华

内容亮点:Iceberg CDC能力是支持构建实时数仓的核心能力。DEEPNOVA 社区对 Iceberg CDC 功能进行了完整实现,并实现Hive历史数据快速迁移入湖,对社区PR 生成元数据的方式进行了并行优化,提升数倍的迁移性能。本次分享将围绕如何构建实时数仓,展示FastData的技术优势。

44b4eea0343c8700261cb025d994e1f8.png

听众收益:

1. 了解Apache Iceberg的架构原理、特性及应用场景

2. 基于Iceberg实现不同功能的技术优化能力及其业务价值

3. 开放的技术交流社区,与资深技术专家共同探讨湖仓技术

我们坚信技术的前进一定是无数技术从业者一起努力的结果,也衷心希望DEEPNOVA社区能成为技术爱好者们的学习交流平台,借助更多人的力量将社区建设得更加完善。我们也将秉持开放、共享的社区精神,通过更多的技术分享、直播活动等方式回馈社区,让数字技术为世界带来无限可能。

欢迎扫码观看直播,转发分享直播间邀约榜前三名,还将拥有DEEPNOVA专属礼盒。

8a59bcafd8406f6ae9c88794f6491b55.png

3381b55a218414c8f660780b69842703.png

f7bce02a559867f68bd73e0f79d50dd0.png

 Trino分析引擎如何在数据湖上进行极速分析?

f0b8b282ae297540eda1122c14ff6928.png

实时分析型数据库DLink支持Iceberg维度表Lookup join

c622f0d6a226f54d1132860de0e90efc.png

如何利用湖仓一体架构处理多模数据的存储和分析?

285fdf1a56d2014805a6b46118b093a4.png

分析型数据库FastData for DLink有何优势?

成功案例

先进制造    

重庆机电 |九洲电器 | 科伦药业

政务双碳    

智慧龙华 | 攀枝花东区| 深智城

能源出行    

长安新能源 | 华胜集团

消费流通    

百丽国际 | 秀域集团 | 乖宝宠物

商业综合    

广州城投 | 新华联 | 华发股份

智慧文旅    

拈花湾文旅 | 大横琴泛旅游

更多行业    

新建元集团 | 特驱农牧

点击下方阅读原文,解锁活动详情



推荐阅读
  • 深入解析Spark核心架构与部署策略
    本文详细探讨了Spark的核心架构,包括其运行机制、任务调度和内存管理等方面,以及四种主要的部署模式:Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文,读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]
  • Netflix利用Druid实现高效实时数据分析
    本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid,实现了高效的数据采集、处理和实时分析,从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践,并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]
  • 时序数据是指按时间顺序排列的数据集。通过时间轴上的数据点连接,可以构建多维度报表,揭示数据的趋势、规律及异常情况。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • HBase运维工具全解析
    本文深入探讨了HBase常用的运维工具,详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说,这些工具是日常管理和故障排查的重要手段。 ... [详细]
  • 本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件,类似于 Spark on YARN 的配置方式。我们将基于官方文档,深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]
  • 本文介绍了如何利用 Spring Boot 和 Groovy 构建一个灵活且可扩展的动态计算引擎,以满足钱包应用中类似余额宝功能的推广需求。我们将探讨不同的设计方案,并最终选择最适合的技术栈来实现这一目标。 ... [详细]
  • 本文详细探讨了如何在 SparkSQL 中创建 DataFrame,涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分,本文将持续更新以提供最新信息。 ... [详细]
  • 解决getallheaders函数导致的500错误及8种服务器性能优化策略
    本文探讨了解决getallheaders函数引起的服务器500错误的方法,并介绍八种有效的服务器性能优化技术,包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]
  • 全面解读Apache Flink的核心架构与优势
    Apache Flink作为大数据处理领域的新兴力量,凭借其独特的流处理能力和高效的批处理性能,迅速获得了广泛的关注。本文旨在深入探讨Flink的关键技术特点及其应用场景,为大数据处理提供新的视角。 ... [详细]
  • 深入浅出:Hadoop架构详解
    Hadoop作为大数据处理的核心技术,包含了一系列组件如HDFS(分布式文件系统)、YARN(资源管理框架)和MapReduce(并行计算模型)。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]
  • 网络运维工程师负责确保企业IT基础设施的稳定运行,保障业务连续性和数据安全。他们需要具备多种技能,包括搭建和维护网络环境、监控系统性能、处理突发事件等。本文将探讨网络运维工程师的职业前景及其平均薪酬水平。 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
  • 本文详细介绍如何利用已搭建的LAMP(Linux、Apache、MySQL、PHP)环境,快速创建一个基于WordPress的内容管理系统(CMS)。WordPress是一款流行的开源博客平台,适用于个人或小型团队使用。 ... [详细]
  • 阿里云ecs怎么配置php环境,阿里云ecs配置选择 ... [详细]
author-avatar
海风
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有