热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

javascheduler性能_Schedulerx2.0分布式计算原理最佳实践

1.前言Schedulerx2.0的客户端提供分布式执行、多种任务类型、统一日志等框架,用户只要依赖schedulerx-worker这个jar包,通过

1. 前言

Schedulerx2.0的客户端提供分布式执行、多种任务类型、统一日志等框架,用户只要依赖schedulerx-worker这个jar包,通过schedulerx2.0提供的编程模型,简单几行代码就能实现一套高可靠可运维的分布式执行引擎。

这篇文章重点是介绍基于schedulerx2.0的分布式执行引擎原理和最佳实践,相信看完这篇文章,大家都能写出高效率的分布式作业,说不定速度能提升好几倍:)

2. 可扩展的执行引擎

Worker总体架构参考Yarn的架构,分为TaskMaster, Container, Processor三层:

220381502eafc63e98351df971140e8b.png

TaskMaster:类似于yarn的AppMaster,支持可扩展的分布式执行框架,进行整个jobInstance的生命周期管理、container的资源管理,同时还有failover等能力。默认实现StandaloneTaskMaster(单机执行),BroadcastTaskMaster(广播执行),MapTaskMaster(并行计算、内存网格、网格计算),MapReduceTaskMaster(并行计算、内存网格、网格计算)。

Container:执行业务逻辑的容器框架,支持线程/进程/docker/actor等。

Processor:业务逻辑框架,不同的processor表示不同的任务类型。

以MapTaskMaster为例,大概的原理如下图所示:

b0b64047de4d8baab1d961dd37d38971.png

3. 分布式编程模型之Map模型

Schedulerx2.0提供了多种分布式编程模型,这篇文章主要介绍Map模型(之后的文章还会介绍MapReduce模型,适用更多的业务场景),简单几行代码就可以将海量数据分布式到多台机器上进行分布式跑批,非常简单易用。

针对不同的跑批场景,map模型作业还提供了并行计算、内存网格、网格计算三种执行方式:

并行计算:子任务300以下,有子任务列表。

内存网格:子任务5W以下,无子任务列表,速度快。

网格计算:子任务100W以下,无子任务列表。

4. 并行计算原理

因为并行任务具有子任务列表:

66bb74636923623903e8ed85f74157cd.png

如上图,子任务列表可以看到每个子任务的状态、机器,还有重跑、查看日志等操作。

因为并行计算要做到子任务级别的可视化,并且worker挂了、重启还能支持手动重跑,就需要把task持久化到server端:

d96741aa4d666ef48f2f89f17c0f939c.png

如上图所示:

server触发jobInstance到某个worker,选中为master。

MapTaskMaster选择某个worker执行root任务,当执行map方法时,会回调MapTaskMaster。

MapTaskMaster收到map方法,会把task持久化到server端。

同时,MapTaskMaster还有个pull线程,不停拉取INIT状态的task,并派发给其他worker执行。

5. 网格计算原理

网格计算要支持百万级别的task,如果所有任务都往server回写,server肯定扛不住,所以网格计算的存储实际上是分布式在用户自己的机器上的:

36d33429d5600e0d25e793c47880eabf.png

如上图所示:

server触发jobInstance到某个worker,选中为master。

MapTaskMaster选择某个worker执行root任务,当执行map方法时,会回调MapTaskMaster。

MapTaskMaster收到map方法,会把task持久化到本地h2数据库。

同时,MapTaskMaster还有个pull线程,不停拉取INIT状态的task,并派发给其他worker执行。

6. 最佳实践

6.1 需求

举个例子:

读取A表中status=0的数据。

处理这些数据,插入B表。

把A表中处理过的数据的修改status=1。

数据量有4亿+,希望缩短时间。

6.2 反面案例

我们先看下如下代码是否有问题?

public class ScanSingleTableProcessor extends MapJobProcessor {

private static int pageSize = 1000;

@Override

public ProcessResult process(JobContext context) {

String taskName = context.getTaskName();

Object task = context.getTask();

if (WorkerConstants.MAP_TASK_ROOT_NAME.equals(taskName)) {

int recordCount = queryRecordCount();

int pageAmount = recordCount / pageSize;//计算分页数量

for(int i = 0 ; i

List recordList = queryRecord(i);//根据分页查询一页数据

map(recordList, "record记录");//把子任务分发出去并行处理

}

return new ProcessResult(true);//true表示执行成功,false表示失败

} else if ("record记录".equals(taskName)) {

//TODO

return new ProcessResult(true);

}

return new ProcessResult(false);

}

}

如上面的代码所示,在root任务中,会把数据库所有记录读取出来,每一行就是一个Record,然后分发出去,分布式到不同的worker上去执行。逻辑是没有问题的,但是实际上性能非常的差。结合网格计算原理,我们把上面的代码绘制成下面这幅图:

e9e5bf0b7c3d010d252f6edbbd26b081.png

如上图所示,root任务一开始会全量的读取A表的数据,然后会全量的存到h2中,pull线程还会全量的从h2读取一次所有的task,还会分发给所有客户端。所以实际上对A表中的数据:

全量读2次

全量写一次

全量传输一次

这个效率是非常低的。

6.3 正面案例

下面给出正面案例的代码:

public class ScanSingleTableJobProcessor extends MapJobProcessor {

private static final int pageSize = 100;

static class PageTask {

private int startId;

private int endId;

public PageTask(int startId, int endId) {

this.startId = startId;

this.endId = endId;

}

public int getStartId() {

return startId;

}

public int getEndId() {

return endId;

}

}

@Override

public ProcessResult process(JobContext context) {

String taskName = context.getTaskName();

Object task = context.getTask();

if (taskName.equals(WorkerConstants.MAP_TASK_ROOT_NAME)) {

System.out.println("start root task");

Pair idPair = queryMinAndMaxId();

int minId = idPair.getFirst();

int maxId = idPair.getSecond();

List taskList = Lists.newArrayList();

int step = (int) ((maxId - minId) / pageSize); //计算分页数量

for (int i = minId; i

taskList.add(new PageTask(i, (i+step > maxId ? maxId : i+step)));

}

return map(taskList, "Level1Dispatch");

} else if (taskName.equals("Level1Dispatch")) {

PageTask record = (PageTask)task;

long startId = record.getStartId();

long endId = record.getEndId();

//TODO

return new ProcessResult(true);

}

return new ProcessResult(true);

}

@Override

public void postProcess(JobContext context) {

//TODO

System.out.println("all tasks is finished.");

}

private Pair queryMinAndMaxId() {

//TODO select min(id),max(id) from xxx

return null;

}

}

如上面的代码所示,

每个task不是整行记录的record,而是PageTask,里面就2个字段,startId和endId。

root任务,没有全量的读取A表,而是读一下整张表的minId和maxId,然后构造PageTask进行分页。比如task1表示PageTask[1,1000],task2表示PageTask[1001,2000]。每个task处理A表不同的数据。

在下一级task中,如果拿到的是PageTask,再根据id区间去A表处理数据。

根据上面的代码和网格计算原理,得出下面这幅图:

6437cb25b9418ed72e12a7cb500cf487.png

如上图所示,

A表只需要全量读取一次。

子任务数量比反面案例少了上千、上万倍。

子任务的body非常小,如果recod中有大字段,也少了上千、上万倍。

综上,对A表访问次数少了好几倍,对h2存储压力少了上万倍,不但执行速度可以快很多,还保证不会把自己本地的h2数据库搞挂。

作者:黄晓萌​

本文为云栖社区原创内容,未经允许不得转载。



推荐阅读
  • 软件测试行业深度解析:迈向高薪的必经之路
    本文深入探讨了软件测试行业的发展现状及未来趋势,旨在帮助有志于在该领域取得高薪的技术人员明确职业方向和发展路径。 ... [详细]
  • 2017年软件开发领域的七大变革
    随着技术的不断进步,2017年对软件开发人员而言将充满挑战与机遇。本文探讨了开发人员需要适应的七个关键变化,包括人工智能、聊天机器人、容器技术、应用程序版本控制、云测试环境、大众开发者崛起以及系统管理的云迁移。 ... [详细]
  • 本文总结了近年来在实际项目中使用消息中间件的经验和常见问题,旨在为Java初学者和中级开发者提供实用的参考。文章详细介绍了消息中间件在分布式系统中的作用,以及如何通过消息中间件实现高可用性和可扩展性。 ... [详细]
  • 对象存储与块存储、文件存储等对比
    看到一篇文档,讲对象存储,好奇,搜索文章,摘抄,学习记录!背景:传统存储在面对海量非结构化数据时,在存储、分享与容灾上面临很大的挑战,主要表现在以下几个方面:传统存储并非为非结 ... [详细]
  • 本文详细介绍了Java代码分层的基本概念和常见分层模式,特别是MVC模式。同时探讨了不同项目需求下的分层策略,帮助读者更好地理解和应用Java分层思想。 ... [详细]
  • Docker安全策略与管理
    本文探讨了Docker的安全挑战、核心安全特性及其管理策略,旨在帮助读者深入理解Docker安全机制,并提供实用的安全管理建议。 ... [详细]
  • 问题描述现在,不管开发一个多大的系统(至少我现在的部门是这样的),都会带一个日志功能;在实际开发过程中 ... [详细]
  • spring boot使用jetty无法启动 ... [详细]
  • 深入探讨:Actor模型如何解决并发与分布式计算难题
    在现代软件开发中,高并发和分布式系统的设计面临着诸多挑战。本文基于Akka最新文档,详细探讨了Actor模型如何有效地解决这些挑战,并提供了对并发和分布式计算的新视角。 ... [详细]
  • 在尝试启动Java应用服务器Tomcat时,遇到了org.apache.catalina.LifecycleException异常。本文详细记录了异常的具体表现形式,并提供了有效的解决方案。 ... [详细]
  • 本文探讨了一种统一的语义数据模型,旨在支持物联网、建筑及企业环境下的数据转换。该模型强调简洁性和可扩展性,以促进不同行业间的插件化和互操作性。对于智能硬件开发者而言,这一模型提供了重要的参考价值。 ... [详细]
  • 在Java开发中,保护代码安全是一个重要的课题。由于Java字节码容易被反编译,因此使用代码混淆工具如ProGuard变得尤为重要。本文将详细介绍如何使用ProGuard进行代码混淆,以及其基本原理和常见问题。 ... [详细]
  • Redis:缓存与内存数据库详解
    本文介绍了数据库的基本分类,重点探讨了关系型与非关系型数据库的区别,并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]
  • Java EE 平台集成了多种服务、API 和协议,旨在支持基于 Web 的多层应用程序开发。本文将详细介绍 Java EE 中的 13 种关键技术规范,帮助开发者更好地理解和应用这些技术。 ... [详细]
  • 数字经济浪潮下企业人才需求变化,优质IT培训机构助力技能提升
    随着云计算、大数据、人工智能、区块链和5G等技术的迅猛发展,数字经济已成为推动经济增长的重要动力。据信通院数据,2020年中国数字经济占GDP比重达38.6%,整体规模突破39.2万亿元。本文探讨了企业在数字化转型中对技术人才的需求变化,并介绍了优质IT培训机构如何助力人才培养。 ... [详细]
author-avatar
萌嗒嗒滴妹妹惹人爱i_121
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有