热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

图解Storm并发机制及其执行流程

上一篇:Storm和Zookeeper集群搭建及在java项目中的使用:http://blog.csdn.net/xlgen157387

上一篇:

Storm和Zookeeper集群搭建及在java项目中的使用:
http://blog.csdn.net/xlgen157387/article/details/77540057

一、Storm架构简介

在上一篇,我们对Storm集群进行了搭建,并使用Java完成了代码的演示,我们知道在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。

一个拓扑中包括spoutbolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组,对应着固定的键值对。

在Storm中,一个task可以简单的理解为在集群某节点上运行的一个spout或者bolt实例。在集群运行运行中,topology主要有四个组成部分:他们从低到高分别是:task(bolt/spout实例)、Executor(线程)、Workers(JVM虚拟机)、Nodes(服务器)

各个部分的含义如下:

(1)Nodes(服务器):是指配置在一个Storm集群中的服务器,会执行topology的一部分运算。一个Storm集群可以包括一个或者多个工作node。

(2)Workers(JVM虚拟机):是指一个node节点服务器上相互独立运行的JVM进程。每一个node可以配置运行一个或者多个worker。一个topology会分配到一个或者多个worker上运行。

(3)Executor(线程):是指一个worker的JVM进程中运行的Java线程。多个task可以指派给同一个executor来执行。除非是明确指定,Storm默认会给每一个executor分配一个task。

(4)Task(bolt/spout实例):task是spout和bolt的实例,衙门的nextTuple()和execute()方法会被executors线程调用执行。

结构图如下:


二、Topology的并发机制–默认配置

以上一篇的代码为例,Topology的代码(代码A)如下:

可以看到Topology中有RandomNameSpout和两个Bolt:UpperBoltAppendBolt,执行流程如下:

上边的代码在默认的情况下,我们没有使用Storm中并发机制提供的API,全部都是默认的,在大多数情况下,除非明确指定,Storm的默认并发设置是1。

在这里,我们假设有一台服务器(Node节点),为topology分配了一个worker,并且每个executor执行一个task,那么上述代码(代码A)的执行流程如下图(图A)所示:

由上图,我们可以看出,唯一的并发机制出现在线程级。每个任务Task在同一个JVM的不同线程中执行。

三、Topology的并发机制–给Topology增加Worker

增加额外的worker是增加topology计算能力的简单方式,Storm提供了简单的配置使我们增加worker的方式变得很容易,只需修改如下代码即可,其它代码不变:

这样的话,整个topology就分配了2个worker而不是默认的1个。那么上图图A应该变成如下方式,如图(图B):


四、Topology的并发机制–配置executor和task(1)

Storm并发机制API允许设定每个task对应的executor个数和每个executor可执行的task个数。在定义流分组的时候,也可以设置每一个组件指派的executor的数量。例如:我们修改RandomNameSpout并发为两个task,每个task指派各自的executor线程,还是只使用1个worker代码修改如下:

注意官方API对于setSpout()方法的定义是这样的:

/**
* Define a new spout in this topology with the specified parallelism. If the spout declares
* itself as non-distributed, the parallelism_hint will be ignored and only one task
* will be allocated to this component.
*
* @param id the id of this component. This id is referenced by other components that want to consume this spout's outputs.
* @param parallelism_hint the number of tasks that should be assigned to execute this spout. Each task will run on a thread in a process somewhere around the cluster.
* @param spout the spout
* @throws IllegalArgumentException if {@code parallelism_hint} is not positive
*/
public SpoutDeclarer setSpout(String id, IRichSpout spout, Number parallelism_hint) throws IllegalArgumentException {
validateUnusedId(id);
initCommon(id, spout, parallelism_hint);
_spouts.put(id, spout);
return new SpoutGetter(id);
}

对于第三个参数,意思是:设置Spout的并发为两个task,每个task指派给各自的executor线程,由于默认情况下,每一个线程executor执行一个task,所以我们可以理解为,分配了两个线程executor,每一个executor线程执行一个任务task。

那么上图图A应该变成如下方式,如图(图C):


五、Topology的并发机制–配置executor和task(2)

上述,增加了Spout的线程数,在默认情况下每一个线程executor是处理一个task,那么,我们接下来设置多个executor和多个task,完整代码如下:

那么上图图A应该变成如下方式,如图(图D):

有上述代码,可知设置了2个worker,因此每一个worker平均分摊执行相应的task,最后的结果就如上图所示。

值得注意的是:如果只在一台Node服务器上增加worker的数量,例如:topology执行在本地模式的时候,并不会显著地提升系统的性能,也是会出现瓶颈的,这是因为topology在本地模式下是在同一个JVM进程中执行的,必然会有相关资源的竞争等,所以只有增加task和executor的并发配置才会生效。

六、Topology的并发机制的特殊情况

实际开发中可能存在这种情况,例如:我们在上述的基础上在增加一个类似于汇总的Bolt进行统计字符串的多少,那我,我们只可能对这个Bolt设置为单线程、单任务的方式进行统计,而不可能在使用多线程或多任务的方式进行统计,原因很简单,执行示意图如下:

代码如下:

那么上图图A应该变成如下方式,如图(图E):

由此,我们可以知道,Storm提供了简单的API接口让我们能够很方便的进行并发控制,但是我们也要根据具体的业务设置合理的executor和task等数目,以免发生错误的结果。

参考文章:

1、http://www.csdn.net/article/2015-03-09/2824135


推荐阅读
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • Week04面向对象设计与继承学习总结及作业要求
    本文总结了Week04面向对象设计与继承的重要知识点,包括对象、类、封装性、静态属性、静态方法、重载、继承和多态等。同时,还介绍了私有构造函数在类外部无法被调用、static不能访问非静态属性以及该类实例可以共享类里的static属性等内容。此外,还提到了作业要求,包括讲述一个在网上商城购物或在班级博客进行学习的故事,并使用Markdown的加粗标记和语句块标记标注关键名词和动词。最后,还提到了参考资料中关于UML类图如何绘制的范例。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文探讨了C语言中指针的应用与价值,指针在C语言中具有灵活性和可变性,通过指针可以操作系统内存和控制外部I/O端口。文章介绍了指针变量和指针的指向变量的含义和用法,以及判断变量数据类型和指向变量或成员变量的类型的方法。还讨论了指针访问数组元素和下标法数组元素的等价关系,以及指针作为函数参数可以改变主调函数变量的值的特点。此外,文章还提到了指针在动态存储分配、链表创建和相关操作中的应用,以及类成员指针与外部变量的区分方法。通过本文的阐述,读者可以更好地理解和应用C语言中的指针。 ... [详细]
  • 纠正网上的错误:自定义一个类叫java.lang.System/String的方法
    本文纠正了网上关于自定义一个类叫java.lang.System/String的错误答案,并详细解释了为什么这种方法是错误的。作者指出,虽然双亲委托机制确实可以阻止自定义的System类被加载,但通过自定义一个特殊的类加载器,可以绕过双亲委托机制,达到自定义System类的目的。作者呼吁读者对网上的内容持怀疑态度,并带着问题来阅读文章。 ... [详细]
  • Android自定义控件绘图篇之Paint函数大汇总
    本文介绍了Android自定义控件绘图篇中的Paint函数大汇总,包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数,可以更好地掌握Paint的用法。 ... [详细]
  • 本文介绍了安全性要求高的真正密码随机数生成器的概念和原理。首先解释了统计学意义上的伪随机数和真随机数的区别,以及伪随机数在密码学安全中的应用。然后讨论了真随机数的定义和产生方法,并指出了实际情况下真随机数的不可预测性和复杂性。最后介绍了随机数生成器的概念和方法。 ... [详细]
  • 1.ArrayList是实现了基于动态数组的数据结构,LinkedList基于链表的数据结构。 2.对于随机访问get和set,ArrayList优于LinkedList,因为Ar ... [详细]
  • 本文介绍了一个Java猜拳小游戏的代码,通过使用Scanner类获取用户输入的拳的数字,并随机生成计算机的拳,然后判断胜负。该游戏可以选择剪刀、石头、布三种拳,通过比较两者的拳来决定胜负。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • 2018深入java目标计划及学习内容
    本文介绍了作者在2018年的深入java目标计划,包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中,作者对jvm的学习有一定了解,并计划通读《jvm》一书。此外,作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ... [详细]
  • Servlet多用户登录时HttpSession会话信息覆盖问题的解决方案
    本文讨论了在Servlet多用户登录时可能出现的HttpSession会话信息覆盖问题,并提供了解决方案。通过分析JSESSIONID的作用机制和编码方式,我们可以得出每个HttpSession对象都是通过客户端发送的唯一JSESSIONID来识别的,因此无需担心会话信息被覆盖的问题。需要注意的是,本文讨论的是多个客户端级别上的多用户登录,而非同一个浏览器级别上的多用户登录。 ... [详细]
author-avatar
dbvg2q
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有