在搭建大数据集群之前,对大数据集群的有效规划是非常重要的一件事,所以此篇博文主要介绍集群节点规划。
假如公司测试环境有5台机器,生产环境100台机器,配置如下:
MyCluster001: mysql cm-server cm-agent
MyCluster002: cm-agent nn rm
MyCluster003: cm-agent nn rm
MyCluster004: cm-agent dn nm broker zk
MyCluster005: cm-agent dn nm broker zk
MyCluster006: cm-agent dn nm broker zk
。。。。。
MyCluster100: cm-agent dn nm
备注:
1、选择第一台(配置不是太强的机器)作为工具节点:mysql cm-server cm-agent
2、选择2台,专门用来部署生态圈的主从架构的组件(HDFS、YARN、HBase)的主角色
3、dn和nm部署在同一台(追求数据本地化),其他非主从架构的组件的进程可以随意部署,但尽量在同一个rack
4、cm-server没有必要做ha,只有一台机器部署cm-server足以
5、
什么是数据本地化?
DataNode主要用来做数据节点,NodeManager主要用来数据计算,当NM计算数据可以直接获取同一台机器上的数据,这样避免或者减少通过网络到其他节点拉取数据的时间,也减少了网络带宽的消耗。在spark组件中数据本地化是一个非常重要的概念,以后有时间再专门说明,这里不再多介绍。
--------------------------
用人品去感动别人,用行动去带动别人,用阳光去照耀别人,用坚持去赢得别人,要求自己每天都去做与目标有关的事情,哪怕每天只进步一点点,坚持下来你就是最优秀卓越的!欢迎大家加入大数据qq交流群:725967421 一起交流,一起进步!!
--------------------------