活动｜Apache首次亚洲技术峰会:大数据场大咖详细介绍

作者：董雅淑_420 | 来源：互联网 | 2023-06-15 17:19

ApacheCon以往十多年都在海外举行，今年是组委会首次针对亚太地区举办Apa

点击“Cloudera中国” 即可订阅！

本文转载自 ALC Beijing

引言

随着越来越多的企业开启数字化转型，大数据行业得到了前所未有的快速发展，大数据的繁荣给大数据生态的各技术也带来了前所未有的机遇与挑战。谈到大数据技术，我相信大家一定对 Apache 不会陌生，大数据开源技术绝大多数是来自 Apache 基金会, 今天我先给大家介绍 Apache 年度盛会 - ApacheCon

ApacheCon

@ 官方全球系列大会

ApacheCon 是 Apache 软件基金会（ASF）的官方全球系列大会，每年举办一次。作为久负盛名的开源盛宴，是开源界最具期待的大会之一。

自 1998 年开办以来，ApacheCon 已经吸引了超过 350 个技术项目和不同社区参与其中，汇聚海内外的业内专家与老师，分享全球最新的技术动态与实践，共同探讨 "明天的技术"，让广大的技术爱好者们看到各技术前沿，有哪些最新趋势和进展，更好的升级自己的技术栈。

但，但 ApacheCon 以往十多年都在海外举行，今年是组委会首次针对亚太地区举办 ApacheCon 在线大会：ApacheCon Asia。Asia 大会将来自中国、日本、印度、美国等海内外的 140+ 议题分为大数据、Incubator、API 微服务、中间件、工作流和数据治理、数据可视化、可观测性、流处理、消息系统、物联网和工业物联网、集成、开源社区/文化、Web Server/Tomcat 等 14 个论坛。

参与 2021 年 8 月 6 日 - 8 日的 Asia 大会，您将获得：

· 全球最新的技术动态与实践分享

· 与海内外 200+ 名顶级专家交流机会

· 3 天盛会，140+ 场议题，全程免费参加

活动官网：

https://www.apachecon.com/acasia2021

大会议程详情：

https://apachecon.com/acasia2021/tracks.html

关于 Big Data 论坛

Big Data 是 Apache 最重要的主题之一。今年大数据场也异常热闹，涵盖项目包括 Arrow、Atlas、Bigtop、CarbonData、Cassandra、DolphinScheduler、Doris(孵化中)、Druid、Flink、Hadoop、HBase、Hive、HUDI、Impla、Kylin、Kyuubi(孵化中)、Liminal(孵化中)、Nemo、Pinot、Pulsar、Spark、YuniKorn(孵化中)等顶级项目或正在孵化中的项目，以及现下较为火热的 Milvus、openLooKeng 等开源项目。在本次 3 天盛会中，大家均能了解这些技术的前沿趋势和来自一线用户的实践经验、原理、架构分析等精彩内容。

出品人

由于大数据技术太过火热，排满 3 天议程，今天我们将为您详细解读第一天的海内外的各位技术大咖们。

大数据场也特别邀请到 3 位主持人

8月6日议程亮点

@ Apache

Big Data

扩展 Impala -- 常见错误和最佳实践

分享嘉宾：Manish Maheshwari

时间：8月6日 13:30

议题介绍:

Apache Impala 是一个复杂的引擎，需要全面的技术理解才能充分使用它。在本讲座中，我们将讨论保持 Impala 部署可扩展性的摄取最佳实践，以及为终端用户提供一致体验的准入控制配置。我们还将对 Impala 的查询配置文件进行高层次的研究，它被用作任何性能故障排除的第一站。此外，我们将讨论用户和 BI 工具在与 Impala 互动时常犯的错误。最后，我们将讨论一个理想的配置，以将上述的内容都呈现在实践中。

其实现和应用挑战。

嘉宾介绍:

Manish Maheshwari

Cloudera 的 Principal Sales Engineer，15 年以上建立超大型数据仓库和分析解决方案的经验。在 Apache Hadoop、DI 和 BI 工具、数据挖掘和预测、数据建模、主数据和元数据管理以及仪表盘工具方面有丰富的经验。精通 Hadoop、SAS、R、Informatica、Teradata 和 Qlikview。

DBS [新加坡发展银行] 的数据平台如何利用 Apache CarbonData 推动实时洞察和分析

分享嘉宾：Ravindra Pesala Kumar Vishal

时间：8月6日 13:30

议题介绍:

星展银行（DBS）是一家总部设在新加坡的领先银行，银行已有数兆字节的结构化和非结构化数据，这些数据为银行指定战略提供重要帮助。2020 年，星展银行投资于一个基于 CarbonData 的数据平台，以推动实时分析，并从各种来源的现有数据中释放出洞察力。在本讲座中，我们将介绍星展银行如何利用 Spark 和 Presto 引擎从传统的数据仓库转向基于 CarbonData 的数据湖。

嘉宾介绍:

Ravindra Pesala

新加坡星展银行高级副总裁，大数据平台负责人

Apache CarbonData PMC

领导大数据工程平台，包括摄入、计算、数据访问、流媒体和元数据。

Kumar Vishal

Apache CarbonData PMC

高级大数据工程师

处理大数据工程平台，包括摄取、计算、数据访问、流媒体

构建分布式容错可扩展的分析栈的挑战

分享嘉宾：Nishant Bangarwa

时间：8月6日 14:10

议题介绍:

截至目前， Apache Druid 集群拥有超过 50 多万亿的事件，相当于超过 500PB 的原始数据，并且不断地增长。在这次演讲中，我们将介绍分布式容错可扩展分析栈的设计及其挑战，并讲述我们将 Apache Druid 发展为一个强大的分布式容错可扩展分析数据存储的路径。

嘉宾介绍:

Nishant Bangarwa

Rilldata 联合创始人和工程主管。

活跃的开源贡献者，Apache Druid PMC & Apache Superset PMC，Apache Calcite和Apache Hive的提交者。

在 Rilldata 之前，他是 Cloudera 的数据仓库团队和 Metamarkets Druid 团队的一员，负责管理大规模的 Apache Druid 部署。

印度 Kurukshetra 国家理工学院计算机科学学士

在 Apache Ozone 中是如何实现安全的

分享嘉宾：Bharat Viswanadham Shashikant Banerjee

时间：8 月 6 日 14:10

议题介绍:

Apache Ozone 是一个可扩展的、冗余的、分布式的 Hadoop 对象存储，它在2020年成为 Apache 的顶级项目。Apache Ozone 有两个元数据服务，一个是存储容器管理器（SCM），管理块/容器的分配和复制、证书和节点管理；另一个是 OzoneManager，管理元数据。在本讲座中，我们将讨论 Ozone 中的安全是如何实现的。

其实现和应用挑战。

嘉宾介绍:

Bharat Viswanadham：软件工程专家，在设计和构建可扩展和高性能的分布式存储系统方面拥有7年以上的经验。Apache Hadoop 和Apache Ozone Committer & PMC。

Shashikant Banerjee：8 年以上的经验的分布式存储系统方面专家。Apache Hadoop、Apache Ozone 和 Apache Ratis 社区的 committer & PMC。

openLooKeng 启发式指数框架架构分析与应用实践

分享嘉宾：李铮

时间：8 月 6 日 14:50

议题介绍:

随着大数据技术的应用和发展，数据类型越来越多，数据分布越来越广，查询场景越来越复杂。这使得数据的处理变得困难或不容易。为了提高大数据的可用性，华为发起了数据虚拟化引擎开源项目 openLooKeng。

openLooKeng 提供统一的 SQL 接口，提供基本的交互式查询和分析能力，并在跨数据中心/云、数据源扩展、性能、可靠性、安全性等方面持续发展，使大数据简单化。本讲座将重点介绍 openLooKeng 启发式索引框架，以及基于该框架的严重索引技术及其实现和应用挑战。

嘉宾介绍:

李铮

华中科技大学博士。于 2018 年 6 月加入华为。目前专注于 openLooKeng 的性能优化研究，深入参与了大数据查询分析引擎架构的设计和实现等相关工作。

Kyuubi: 网易对 Serverless Spark 场景的探索与实践应用

分享嘉宾：姚琴

时间：8 月 6 日 14:50

议题介绍:

本次主题主要涵盖网易开源大数据组件 Kyuubi 项目的架构、实现原理及应用场景进行介绍，并通过实际案例展示 Kyuubi 在网易内部帮助业务实现 Serverless Spark 能力及对应过程与思考。同时，介绍在这个过程中我们是如何直接参与在 Spark 开源社区中，同步完成对应的问题处理和特性优化的。

嘉宾介绍:

姚琴

Apache Kyuubi 项目的主要作者

Apache Spark Committer

Apache Submarine Committer

来自网易大数据团队

招商银行跨数据源的数据分析

分享嘉宾：吴酋珉

时间：8 月 6 日 15:30

议题介绍:

招商银行(CMB)有 PB 级的数据存储在 RDBMS、NoSQL 数据库、对象存储、大数据框架 – Apache Hadoop、Spark、Flink 等。通过 ETL 方法从不同的数据源传输数据的成本很高。因此，openLookeng 被引入来连接不同的数据源，并在本地跨数据中心和混合云处理数据。

本讲座将概述 CMB 的数据处理引擎，它能对地理上的远程数据源进行就地分析。以及我们如何使用 openLookeng 的功能，如高可用性、自动扩展、内置缓存和索引支持等，以满足企业工作负载需求的可靠性。

嘉宾介绍:

吴酋珉

招商银行大数据技术专家，金融科技领域 9 年大数据经验，负责招商银行大数据平台的架构设计、实施和维护。openLookeng PMC。

Apache Druid 的存储和查询引擎内幕

分享嘉宾：Gian Merlino

时间：8 月 6 日 15:30

议题介绍:

Apache Druid 是一个开源的列式数据库，以大规模、高性能而闻名；其最大的部署包括成千上万的服务器。但无论规模大小，高性能都要从良好的基础开始。本讲座将通过探索单个数据服务器的内部工作原理来深入了解这些基本原理。我们将介绍Apache Druid 是如何存储数据，使用何种压缩方式，而存储引擎如何与查询处理引擎相连，以及系统如何处理资源管理和多线程。

嘉宾介绍:

Gian Merlino

Imply 联合创始人和 CTO。Druid 的主要提交者之一。曾在 Metamarkets 领导数据摄取团队，并在雅虎担任高级工程职位。加州理工学院计算机科学学士。

通过使用 Apache CarbonData 的索引加快大数据分析的速度

分享嘉宾：AKASH R NILUGAL KUNAL KAPOOR

时间：8 月 6 日 16:10

议题介绍:

21 世纪的数据就像 18 世纪的石油：如果以智能的方式进行处理，是一种巨大的、未开发的宝贵资产。大数据的存储和分析在成本和时间上都是具有挑战性和昂贵的。分析解决方案需要不断自我调整，以跟上指数级的数据增长速度的挑战。Apache CarbonData 是一个统一的存储解决方案+文件格式，旨在优化查询性能，从而降低分析成本。Apache CarbonData 已经被 100 多个开源用户采用。在数据库中，索引是主要的功能之一，它基本上可以帮助查询而不需要扫描每一行。从这个概念中得到的灵感，Apache CarbonData 支持自定义索引，如最小/最大，Bloom，Lucene，二级索引和物化视图，以加快行级更新，删除，OLAP 和点查询。本演讲强调了 CarbonData的自定义索引架构和分布式索引缓存服务器，这有助于提供更快的查询结果，以及未来的挑战和范围。

嘉宾介绍:

Akash R Nilugal

Apache Carbondata PMC & Committer

华为 Banglore 研究中心云和AI/数据平台团队高级技术负责人。

大数据 5 年经验，对大数据的索引支持、物化视图、大数据的 CDC、Spark SQL 查询优化、Spark 结构化流、数据湖和数据仓库功能等领域感兴趣。

Kunal Kapoor

Apache Carbondata PMC & Committer，华为 Banglore 研究中心云和AI/数据平台团队系统架构师，主要负责包括分布式索引缓存服务器，Hive + Carbondata 集成，预聚合支持，S3 对 Carbondata 的支持，Carbondata的二级索引，Carbondata 中的 Spark SQL 查询优化。

基于JAVA的大数据机器学习方案

分享嘉宾：兰青

时间：8 月 6 日 16:10

议题介绍:

机器学习（ML）应用的成功取决于对大数据的利用。大多数大数据都是以非结构化格式提供的。大数据的可用性也可以是离线和在线的。虽然在 Python 中也有 ML 任务的选项，但将 Python 应用程序整合到现有的基于 Java/Scala 的大数据管道中是相当具有挑战性的。除此之外，在 Java/Scala 中，很少有选择可以弥合处理大数据和使用同一库进行 ML 工作负载的差距。

为了解决上述问题，我们将用 Java 中的机器学习框架 DJL 来演示 Java 中的大数据 ML 解决方案。DJL 提供了多种 ML 引擎，包括 TensorFlow、PyTorch、Apache MXNet（正在孵化）。PaddlePaddle、ONNXRuntime 等等。通过使用 Apache Flink和 Apache Spark，用户可以轻松建立他们的在线/离线 ML 管道。在会议结束时，听众将能够为所有不同的场景建立一个易于使用、高性能的 ML 管道。

嘉宾介绍:

兰青

亚马逊 AWS 机器学习平台软件开发工程师，深耕大数据以及生产环境中机器学习的应用架构。

DJL（djl.ai）的共同作者之一

Apache MXNet PPMC

哥伦比亚大学计算机工程硕士

洞悉开源社区的秘密 -- 数据驱动的社区运营的最佳实践

分享嘉宾：钟君姜逸坤彭磊

时间：8月6日 16:50

议题介绍:

在开源社区的评估过程中，对社区现状的数据驱动的洞察和分析对于帮助社区健康成长是非常有意义的。因此，数据驱动的操作在社区中起到了关键作用。在本专题中，我们将介绍在数据驱动的社区运营方面的最佳实践。这个运营管理系统帮助中国几个最活跃的开源社区（如 openEuler、openGauss、openLooKeng、MindSpore等）高效、科学地衡量社区的健康、活跃度和其他关键指标。本课题还将结合 openEuler 社区的真实案例，讲述数据驱动运营系统是如何实现的，介绍如何利用强大的 Apache 大数据项目来构建第一个可用版本（包括数据存储、分析、数据洞察和可视化），以及我们贡献给 Apache 上游项目的改进方案。

嘉宾介绍:

钟君

参与开源社区的工作超过 6 年。负责 openEuler、MindSpore、openGauss 和 openLooKeng 项目的数字运营系统。担任多个社区的核心贡献者，如 openEuler 开源社区 infra sig 团队的维护者，openGauss 开源社区 infra sig 团队的维护者，以及 OpenStack manila 项目的核心成员。