热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据运维的职责和技能要求

一、大数据运维的职责一)大数据运维的职责概述1、集群管理大数据需要分布式系统(集群)相关软软件CDH、HDFS、YARN、Hive、Hbase、Kafka、zookeepe

一、大数据运维的职责

  一)大数据运维的职责概述

  1、集群管理

  • 大数据需要分布式系统(集群)
  • 相关软软件CDH、HDFS、YARN、Hive、Hbase、Kafka、zookeeper、Spark、Flume、Impala、Hue、Sqoop、Elasticsearch、kibana、MySQL、Oracle等等

  2、故障处理

  • 商用硬件使得故障是常态
  • 区分故障等级,优先处理影响实时性业务的故障

  3、变更管理

  • 以可控的方式,高效的完成变更工作
  • 包括配置管理和发布管理

  4、容量管理

  • 存储空间、允许连接数等都是容器概念
  • 在多租户环境下,容器管理尤其重要

  5、性能调优

  • 不同组件的性能概念不一样,如kafka注重吞吐量,hbase注重实时性可用
  • 需要对组件有深刻的理解

  6、架构调优

  • 优化大数据平台架构,支持平台能力和产品的不断迭代
  • 类似架构师的工作

  二)运维三板斧:可以解决90%以上的故障处理工作

  1、运维三板斧简述

  • 重启:重启有问题的机器或进程,使其正常工作
  • 切换:主备切换或猪猪切换,连接正常工作的节点
  • 查杀:杀死有问题的进程、连接等

  2、运维三板斧的问题

  • 只能解决故障处理问题,不能解决性能调优、架构优化等问题
  • 只能治标,不能治本

  3、大数据运维和传统运维的不同

  • 传统运维面对的底层软硬件基本稳固;大数据运维面对的是商用和复杂的Linux版本
  • 传统运维面对单机架构为主;大数据运维面对复杂的分布式架构
  • 传统运维大多维护闭源商业版系统;大数据运维通常面对开源系统,文档手册匮乏,对阅读源码要求高
  • 大数据运维对自动化工具的依赖大大增加

  三)laas层运维工作

  一般中大型企业有自己的基础设施维护团队,这部分工作不会交给大多数运维来做

  小公司可能需要大数据运维兼任这部分工作,主要关注三方面

  • 硬件:大数据系统大多使用廉价PC Server或虚拟机,硬件故障时常态,通过告警、日志、维护命令等识别故障,并组织硬件更换
  • 存储:大多使用PC Server挂载本地盘的存储方式,极少情况会使用SAN(存储区域网络)或NAS(网络附属存储),熟悉分区、格式化、巡检等基本操作
  • 网络:网络的配置变更需要比较专业的只是,如有需要可学习CCNA、CCNP等认证课程,但网络硬件和配置问题概率很低,主要关注丢包、延时

  四)大数据运维的工作职责

  1、HDFS运维工作

    1、容量管理
  • HDFS空间使用率超过80%要报警,若是多租户环境,租户的配额空间也可能用完
  • 熟悉hdfs,fsck,distcp等常用命令,会使用DataNode均衡器
    2、进程管理
  • namenode的进程是重点
  • 熟悉dfsadmin等命令怎么做namenode高可用
    3、故障管理
  • Hadoop最常见的错误是硬盘损坏(所以相关的监控,可以要有,指定好相应的预案)
    4、配置管理
  • hdfs-site.xml中的参数配置

  2、MapReduce运维工作

    1、进程管理
  • jobtracker进程故障概率比较低,有问题可以通过重启解决
  • 组件的高可用
    2、配置管理
  • mapred-site.xml中的参数设置

  3、Yarn运维工作

    1、故障管理
  • 主要是当任务异常中止时看日志排查,通常故障原因会集中在资源问题、权限问题、代码问题中的一种
    2、进程管理
  • ResourceManager主要是学会配置HA
  • NodeManager进程挂掉不重要,重启即可
    3、配置管理
  • yarn-site.xml中的参数设置,主要分三块配置:scheduler、ResourceManager、NodeManager

  4、Hive/Impala运维工作

    1、SQL问题排查
  • 结果不对,主要原因可能是SQL错误、数据不存在、UDF错误等,需要靠经验排查
  • 慢SQL,这类问题 开发经常会找运维排查,原因有可能是劣质SQL、数据量大,ye
    2、元数据管理
  • Hive和Impala共用Hive的元数据,存在关系型数据库中

  5、其他组件

  根据组件用途、特性、关注点的不同,运维工作各不相同

  • HBase关注读写性能、服务的可用性
  • Kafka关注吞吐量、负载均衡、消息不丢机制
  • Flume关注吞吐量、故障后得到快速恢复
  • .................................................

二、大数据运维的技能

  一)扎实的Linux应用技能

  • Linux相关的管理工具grep、sed、awk等,语言shell、Python等
  • 关系型数据库MySQL、postgresql等关系型数据库技能
  • 计算机网络、操作系统等基础
  • Hadoop生态圈的各组件原理、架构和使用
  • 技术经验的积累

  二)丰富的行业领域知识、经验

  • 沟通能力强:言之有理有据
  • 懂业务:大数据应用架构

  三)阅读英文文档的能力

  四)学习新技术的***

 


推荐阅读
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • [翻译]微服务设计模式5. 服务发现服务端服务发现
    服务之间需要互相调用,在单体架构中,服务之间的互相调用直接通过编程语言层面的方法调用就搞定了。在传统的分布式应用的部署中,服务地 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 众筹商城与传统商城的区别及php众筹网站的程序源码
    本文介绍了众筹商城与传统商城的区别,包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 开发笔记:Docker 上安装启动 MySQL
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Docker上安装启动MySQL相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Centos下安装memcached+memcached教程
    本文介绍了在Centos下安装memcached和使用memcached的教程,详细解释了memcached的工作原理,包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时,还对memcached的快速和高效率进行了解释,与传统的文件型数据库相比,memcached作为一个内存型数据库,具有更高的读取速度。 ... [详细]
  • 2021最新总结网易/腾讯/CVTE/字节面经分享(附答案解析)
    本文分享作者在2021年面试网易、腾讯、CVTE和字节等大型互联网企业的经历和问题,包括稳定性设计、数据库优化、分布式锁的设计等内容。同时提供了大厂最新面试真题笔记,并附带答案解析。 ... [详细]
  • 像跟踪分布式服务调用那样跟踪Go函数调用链 | Gopher Daily (2020.12.07) ʕ◔ϖ◔ʔ
    每日一谚:“Acacheisjustamemoryleakyouhaven’tmetyet.”—Mr.RogersGo技术专栏“改善Go语⾔编程质量的50个有效实践” ... [详细]
  • k8s+springboot+Eureka如何平滑上下线服务
    k8s+springboot+Eureka如何平滑上下线服务目录服务平滑上下线-k8s版本目录“上篇介绍了springboot+Euraka服务平滑上下线的方式,有部分小伙伴反馈k ... [详细]
  • 【回顾】聚焦DTCC | 巨杉数据库与您相约DTCC 数据库技术大会
    2018年5月10-12日,第九届中国数据库技术大会(DTCC2018)将以“数领先机•智赢未来”为主题,设定2大主会场及20个技术专场,邀请来自国内外互联网、金融、教育等行业百余 ... [详细]
  • BPM是什么软件?1、BPM是BusinessProcessManagement的简称,译为业务流程管理,它是一种以规范化的构造端到端的卓越业务流程为中心以持续的提高组织业务绩效为 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
author-avatar
gfhhhgh_130
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有