热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据运维的工作职责

一.集群管理  大数据需要分布式系统,也就是集群:Hadoop,Hbase,Spark,Kafka,Redis等大数据生态圈组建。二.故障处理  1.商用硬件使用故障是常态。  

一.集群管理
    大数据需要分布式系统,也就是集群:Hadoop,Hbase,Spark,Kafka,Redis等大数据生态圈组建。

二.故障处理
    1>.商用硬件使用故障是常态。
    2>.区分故障等级,优先处理影响实时性业务的故障。

三.变更管理
    1>.以可控的方式,高效的完成变更工作;
    2>.包括配置管理和发布管理;

四.容量管理
    1>.存储空间,允许链接数等都是容量概念;
    2>.在多租户环境下,容量管理尤其重要;

五.性能调优
    1>.不同组建的性能概念不一样,如kafka注重吞吐量,Hbase注重实用性可用性;
    2>.需要对组建有深刻的理解

六.架构优化
    1>.优化大数据平台架构,支持平台能力和产品的不断迭代;
    2>.类似架构师的工作;

 

三.大数据运维所需的能力


一.DevOps
    DevOps(英文Development和Operations的组合)是一组过程,方法和系统的统称,用于促进开发(应用程序/软件工程),技术运营和质量保障(QA)部门之间的沟通,写作与整合。
二.硬件,OS,网络,安全的基础知识
    大数据平台和组建设计范围广,各种都需要懂一点,这些知识出问题的时候不可能问人,因为别人也有自己的工作要做。

三.脚本语言能力
    Shell,SQL(DDL),Python.Java(加分)

四.大数据各个组件知识
    设计思想。使用范围,底层架构,常用命令,常用配置或参数,常见问题处理方法。

五.工具能力
    Zabbix,Open Falcon,Ganglia,ELK等,企业自研工具。我推荐使用集群自带的工具。

六.Trouble shooting能力
    搜索能力(搜索引擎,stackoverflow等),java能力(异常堆栈要看得懂,最好能看懂源码),英文阅读能力。

七.意识,流程
    良好的意识,什么能做什么不能做。同用的流程如ITIL,各企业也有自己的流程。

 

四.大数据运维的主要工作


一.运维三板斧
    三板斧可以解决90%以上的故障处理工作。
1>.重启
    重启有问题的机器或经常,使其正常工作。
2>.切换
    主备切换或主主切换,链接正常工作的节点。
3>.查杀
    查杀有问题的进程,链接等。
4>.三板斧的问题
    第一:只能处理故障处理问题,不能解决性能调优,架构优化等问题;
    第二:只能治标,不能治本;
5>..大数据运维和传统运维的不同
    第一:传统运维面对的底层软硬件基本稳固,大数据运维面对的是商用硬件和复杂linux版本;
    第二:传统运维面对的是单机架构为主,大数据运维面对复杂的分布式架构;
    第三:传统运维大多维护闭源商业版系统,大数据运维通常面对开源系统,文档手册匮乏,对阅读源码要求高。
    第四:大数据运维对自动化工具的依赖大大增加;

二.Iaas层(基础设置及服务)运维工作
    一般中大型企业有自己的基础设施维护团队,这部分工作不会交给大数据运维来做。小公司可能需要大数据运维键值这部分工作,主要关注三个方面:
1>.硬件
    大数据系统大多使用廉价PC Server或虚拟机,硬件故障是常态,通过告警,日志,维护命令等识别故障,并支持硬件更换。
2>.存储
    大多使用PC Server挂本磁盘的存储方式,极少情况会使用SAN(存储区域网络)或NAS(网络附属存储),熟悉分区,格式化,巡检等基本操作。
3>.网络
    网络的配置变更更需要比较专业的知识,如有需要可学习CCNA,CCNP等认证课程,但网络硬件和配置出问题概率很低,主要关注丢包,延时。

三.HDFS运维工作
1>.容量管理
    第一:HDFS空间我使用超过80%要警惕,如果是多租户环境,租户的配额空间也能用完;
    第二:熟悉hdfs,fsck,distcp等常用命令,会使用DataNode均衡器;

2>.进程管理
    第一:NameNode的进程是重点
    第二:熟悉dfsadmin等Ingles。怎么做NameNode高可用。
3>.故障管理
    Hadoop最常见的故障就是硬盘损坏。
4>.配置管理
    hdfs-site.xml中的参数设置。

四.MapReduce运维工作
1>.进程管理
    第一:jobtracker进程故障概率比较低,有问题可以通过重启解决;
    第二:了解一下HA的做法;
2>.配置管理
    mapred-site.xml中的参数设置。

五.Yarn运维工作
1>.故障管理
    主要是当任务异常这中止时看日志排查,通茶故障原因会集中在资源问题,权限问题中的一种。
2>.进程管理
    ResourceManager主要是学会配置HA
    NodeManager进程挂掉不重要,重启即可。
3>.配置管理
    yarn-site.xml中的参数设置,主要分三块配置,scheduler的,ResourceManager的,NodeManager的。

六.Hive/Impala运维工作
1>.SQL问题排查
    第一:结果不对,主要原因可能是SQL错误,数据不存在,UDF错误等,需要靠经验排查
    第二:慢SQL,这类问题开发经常会找运维排查,有可能是劣势SQL,数据量大,也有可能是集群资源紧张;
2>.元数据管理
    Hive和Impala公用的元数据,存在关系型数据库中。

七.其它组件
    根据组件用途,特性,关注点的不用,运维工作也各不相同,如:
1>.HBase关注读写性能,服务的可用性
2>.Kafka关注吞吐量,负载均衡,消息不丢机制
3>.Flume关注屯度量,故障后的快速恢复

 

五.大数据运维技能概览

 

 

 

六.大数据运维职业素养


1>.人品
2>.严谨
3>.细心
4>.心态
5>.熟悉操作系统
6>.熟悉业务(开发)
7>.熟悉行业
8>.喜欢大数据生态圈
 


推荐阅读
  • 博客_2018年博客总结
    本文由编程笔记#小编为大家整理,主要介绍了2018年博客总结相关的知识,希望对你有一定的参考价值。前言     ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 开发笔记:Python之路第一篇:初识Python
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Python之路第一篇:初识Python相关的知识,希望对你有一定的参考价值。Python简介& ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 本文整理了Java中org.apache.hadoop.hbase.client.Increment.getDurability()方法的一些代码示例,展示了 ... [详细]
  • 2018-02-1420:07:13,610ERROR[main]regionserver.HRegionServerCommandLine:Regionserverexiting ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • Python语法上的区别及注意事项
    本文介绍了Python2x和Python3x在语法上的区别,包括print语句的变化、除法运算结果的不同、raw_input函数的替代、class写法的变化等。同时还介绍了Python脚本的解释程序的指定方法,以及在不同版本的Python中如何执行脚本。对于想要学习Python的人来说,本文提供了一些注意事项和技巧。 ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • 本文_大数据之非常详细Sqoop安装和基本操作
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识,希望对你有一定的参考价值。大数据大数据之 ... [详细]
author-avatar
手机用户2502911617_428
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有