热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据_ApacheDolphinScheduler征稿大数据神器来了

篇首语:本文由编程笔记#小编为大家整理,主要介绍了ApacheDolphinScheduler征稿--大数据神器来了相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了Apache DolphinScheduler征稿--大数据神器来了相关的知识,希望对你有一定的参考价值。






今天在刷CSDN时偶然看到一个有关 Apache DolphinScheduler的征文活动,在初步了解了相关情况之后,我发现 Apache DolphinScheduler就是那个大数据任务调度平台EasyScheduler的前身,这引起了我很大的兴趣,深入调研一番以后,我认为Apache DolphinScheduler虽然目前知名度不高,但是其发展潜力却是不容忽视的,未来继续发展将为大数据的从业人员们解决不少痛点,因此决定参加这个征稿活动,向大家科普一下Apache DolphinScheduler的情况。


大数据-越来越大也越来越难管

业界对于大数据概念其实还没有一个统一的定义,到底什么规模的数据算是大数据似乎是一个不断变化的动态概念,我们看到比如IDC就直接把大数据的定义为现有技术难以处理的数据,这样的定义虽然看似回避了对于具体规模的表述却也相当聪明。从历史经验来看最新的技术往往就是因为数据处理需求不断升级而催生迭代出来的,比如在谷歌提出大数据三驾马车的论文时,当时像Oracle之类的主流数据库技术根本处理不了谷歌所要存存储的搜索数据,现在的数仓也很难挖掘出数据湖中的宝藏。

目前诸多行业都将数字化转型的任务提上了日程,系统上云也是如火如荼,在这样的大背景下未来大数据的量级肯定还会不断创出新高,比如在上周阿里云的峰会上,Caffe之父贾扬清就指出阿里存储的数据量级正在以年化80%左右的速度增长,不过这样的数据增长速度,却成为大数据工程师的甜蜜负担,传统数据库与数仓用到数据湖三套体系的兼容性很差,能让他们整体协同工作运转就非常不易了,想提高效率真是难比上青天。

从我所在金融行业的情况看,现在的数据分析流程已经太长了,以金融数据为例,分析数据在交易核心的OLTP数据库中跑批处理,再ODS抽取ETL分析到数仓,再进一步训练流式计算,最后再入湖,其时效最快也是T+1日,如果还回答不出更细节、隐含的问题,比如非线性问题,还要把数据复制到SAS中做机器学习,再做统计的指标体系,去做进一步挖掘。数据要在这里搬动三次,复制三份冗余,还要管理数据一致性,每天数据中心运维的大量工作在做数据搬家。可以说目前各种大数据任务还能够正常运行真是堪称奇迹,即使是运行异常了大部分情况下唯一的应对方案也就是重启,重启解决不了就延时重启,具体的异常原因已经很难去分析了。


 Apache DolphinScheduler的杀手锏-简单易用

为了解决任务调度的问题,我们之前也尝试过几种其它的方案比如Quartz,但是Quartz虽然是Java的定时任务标准,但它针对的是定时任务而不是数据流,根据数据流处理去定制化流程的工作量很大。而且Quartz最大的问题是其ACID特性保证,完全是基于数据库实现的,不同节点之间是通过数据库表来感知状态的,如果某一个节点失效,那么Job执行的原子性是很难保证的,缺少分布式并行调度的功能。

当然后来的Airflow可能会比Quartz更好一点,但是Airflow的问题是可视化程度较低,流程及任务必须通过Python代码定义,如果一家机构拥有海量数据流程那么代码定义流程的方式维护起来简直是个噩梦,而且从我们实测的情况看,Airflow的可靠性一般,常出现卡死现象,当然这个也许是我们使用或者配置的问题,不是最终的结论。

对比之后,笔者觉得 Apache DolphinScheduler还是最舒服的,按照官网的说法Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。

而笔者认为分布式与可视化DAG工作流,分别针对了Airflow和Quartz的痛点,而且从不少大牛的实测反馈看Apache DolphinScheduler的可靠性还是很强的。

正如我们前面所说一般目前的大型企业都需要把分析数据从OLTP 核心数据库中抽取到数据仓库中,有的还需要从数据仓库中再同步到数据湖里,个人觉得至少做这种不同类型数据库之间的传输工作,完全可以让Apache DolphinScheduler来进行一下试点,如果Apache DolphinScheduler真的可以全面铺开,那么这对于大数据工程师来说将是巨大福音,因为这是一个完全可视化的工具,只要把流程定义好,那么运行时的监控以及错误处理等关键环节也就自然生成了,这将极大为大数据同仁们减负!

本文正在参与 “拥开源 — Apache DolphinScheduler 有奖征稿活动




推荐阅读
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 如何将Python与Excel高效结合:常用操作技巧解析
    本文深入探讨了如何将Python与Excel高效结合,涵盖了一系列实用的操作技巧。文章内容详尽,步骤清晰,注重细节处理,旨在帮助读者掌握Python与Excel之间的无缝对接方法,提升数据处理效率。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • PHP开发人员薪资水平分析:工程师平均工资概况
    PHP开发人员薪资水平分析:工程师平均工资概况 ... [详细]
  • Hired网站最新发布的开发者调查显示,Python 语言继续受到开发者的广泛欢迎,而 PHP 则被评为最不受欢迎的语言。该报告基于 Hired 数据科学团队对 13 个城市中 9800 名开发者的调查数据,深入分析了当前编程语言的使用趋势和开发者偏好。此外,报告还探讨了其他热门语言如 JavaScript 和 Java 的表现,并提供了对技术招聘市场的洞见。 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • 2021年度回顾与深度分析
    2021年度回顾与深度分析 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 触发器的稳态数量分析及其应用价值
    本文对数据库中的SQL触发器进行了稳态数量的详细分析,探讨了其在实际应用中的重要价值。通过研究触发器在不同场景下的表现,揭示了其在数据完整性和业务逻辑自动化方面的关键作用。此外,还介绍了如何在Ubuntu 22.04环境下配置和使用触发器,以及在Tomcat和SQLite等平台上的具体实现方法。 ... [详细]
  • 利用ZFS和Gluster实现分布式存储系统的高效迁移与应用
    本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例,展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势,为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]
  • 如何有效防御网络攻击,确保软件系统安全稳定运行?
    如何有效防御网络攻击,确保软件系统安全稳定运行? ... [详细]
  • 2016-2017学年《网络安全实战》第三次作业
    2016-2017学年《网络安全实战》第三次作业总结了教材中关于网络信息收集技术的内容。本章主要探讨了网络踩点、网络扫描和网络查点三个关键步骤。其中,网络踩点旨在通过公开渠道收集目标信息,为后续的安全测试奠定基础,而不涉及实际的入侵行为。 ... [详细]
  • 为了向用户提供虚拟应用程序,通常会在基础架构中部署StoreFront或Web Interface。为了确保安全的远程访问,通常需要在DMZ中配置Secure Gateway或Access Gateway。本文详细对比了这两种界面工具的功能特性,包括用户管理、安全性、性能优化等方面,为企业选择合适的解决方案提供了全面的参考。 ... [详细]
author-avatar
回看往事闯天涯
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有