当前位置: 开发笔记 > 编程语言 > 正文

大数据运维的工作职责

作者：手机用户2502911617_428 | 来源：互联网 | 2023-09-13 12:15

一.集群管理大数据需要分布式系统，也就是集群：Hadoop，Hbase，Spark，Kafka，Redis等大数据生态圈组建。二.故障处理 1.商用硬件使用故障是常态。

一.集群管理
大数据需要分布式系统，也就是集群：Hadoop，Hbase，Spark，Kafka，Redis等大数据生态圈组建。

二.故障处理
1>.商用硬件使用故障是常态。
2>.区分故障等级，优先处理影响实时性业务的故障。

三.变更管理
1>.以可控的方式，高效的完成变更工作；
2>.包括配置管理和发布管理；

四.容量管理
1>.存储空间，允许链接数等都是容量概念；
2>.在多租户环境下，容量管理尤其重要；

五.性能调优
1>.不同组建的性能概念不一样，如kafka注重吞吐量，Hbase注重实用性可用性;
2>.需要对组建有深刻的理解

六.架构优化
1>.优化大数据平台架构，支持平台能力和产品的不断迭代;
2>.类似架构师的工作；

三.大数据运维所需的能力

一.DevOps
DevOps(英文Development和Operations的组合)是一组过程，方法和系统的统称，用于促进开发（应用程序/软件工程），技术运营和质量保障（QA）部门之间的沟通，写作与整合。
二.硬件，OS，网络，安全的基础知识
大数据平台和组建设计范围广，各种都需要懂一点，这些知识出问题的时候不可能问人，因为别人也有自己的工作要做。

三.脚本语言能力
Shell,SQL(DDL),Python.Java（加分）

四.大数据各个组件知识
设计思想。使用范围，底层架构，常用命令，常用配置或参数，常见问题处理方法。

五.工具能力
Zabbix，Open Falcon，Ganglia，ELK等，企业自研工具。我推荐使用集群自带的工具。

六.Trouble shooting能力
搜索能力（搜索引擎，stackoverflow等），java能力（异常堆栈要看得懂，最好能看懂源码），英文阅读能力。

七.意识，流程
良好的意识，什么能做什么不能做。同用的流程如ITIL，各企业也有自己的流程。

四.大数据运维的主要工作

一.运维三板斧
三板斧可以解决90%以上的故障处理工作。
1>.重启
重启有问题的机器或经常，使其正常工作。
2>.切换
主备切换或主主切换，链接正常工作的节点。
3>.查杀
查杀有问题的进程，链接等。
4>.三板斧的问题
第一：只能处理故障处理问题，不能解决性能调优，架构优化等问题；
第二：只能治标，不能治本；
5>..大数据运维和传统运维的不同
第一：传统运维面对的底层软硬件基本稳固，大数据运维面对的是商用硬件和复杂linux版本；
第二：传统运维面对的是单机架构为主，大数据运维面对复杂的分布式架构；
第三：传统运维大多维护闭源商业版系统，大数据运维通常面对开源系统，文档手册匮乏，对阅读源码要求高。
第四：大数据运维对自动化工具的依赖大大增加；

二.Iaas层（基础设置及服务）运维工作
一般中大型企业有自己的基础设施维护团队，这部分工作不会交给大数据运维来做。小公司可能需要大数据运维键值这部分工作，主要关注三个方面：
1>.硬件
大数据系统大多使用廉价PC Server或虚拟机，硬件故障是常态，通过告警，日志，维护命令等识别故障，并支持硬件更换。
2>.存储
大多使用PC Server挂本磁盘的存储方式，极少情况会使用SAN（存储区域网络）或NAS（网络附属存储），熟悉分区，格式化，巡检等基本操作。
3>.网络
网络的配置变更更需要比较专业的知识，如有需要可学习CCNA，CCNP等认证课程，但网络硬件和配置出问题概率很低，主要关注丢包，延时。

三.HDFS运维工作
1>.容量管理
第一：HDFS空间我使用超过80%要警惕，如果是多租户环境，租户的配额空间也能用完；
第二：熟悉hdfs，fsck，distcp等常用命令，会使用DataNode均衡器；

2>.进程管理
第一：NameNode的进程是重点
第二：熟悉dfsadmin等Ingles。怎么做NameNode高可用。
3>.故障管理
Hadoop最常见的故障就是硬盘损坏。
4>.配置管理
hdfs-site.xml中的参数设置。

四.MapReduce运维工作
1>.进程管理
第一：jobtracker进程故障概率比较低，有问题可以通过重启解决；
第二：了解一下HA的做法；
2>.配置管理
mapred-site.xml中的参数设置。

五.Yarn运维工作
1>.故障管理
主要是当任务异常这中止时看日志排查，通茶故障原因会集中在资源问题，权限问题中的一种。
2>.进程管理
ResourceManager主要是学会配置HA
NodeManager进程挂掉不重要，重启即可。
3>.配置管理
yarn-site.xml中的参数设置，主要分三块配置，scheduler的，ResourceManager的，NodeManager的。

六.Hive/Impala运维工作
1>.SQL问题排查
第一：结果不对，主要原因可能是SQL错误，数据不存在，UDF错误等，需要靠经验排查
第二：慢SQL，这类问题开发经常会找运维排查，有可能是劣势SQL，数据量大，也有可能是集群资源紧张；
2>.元数据管理
Hive和Impala公用的元数据，存在关系型数据库中。

七.其它组件
根据组件用途，特性，关注点的不用，运维工作也各不相同，如：
1>.HBase关注读写性能，服务的可用性
2>.Kafka关注吞吐量，负载均衡，消息不丢机制
3>.Flume关注屯度量，故障后的快速恢复

五.大数据运维技能概览

六.大数据运维职业素养

1>.人品
2>.严谨
3>.细心
4>.心态
5>.熟悉操作系统
6>.熟悉业务(开发)
7>.熟悉行业
8>.喜欢大数据生态圈

推荐阅读

web
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
io
阿里巴巴终面技术挑战：如何利用 UDP 实现 TCP 功能？

在阿里巴巴的技术面试中，技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想，因此事后进行了详细总结。通过与总监的进一步交流，了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解，以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]

蜡笔小新 2024-11-11 11:50:49
io
深入理解Spark框架：RDD核心概念与操作详解

RDD是Spark框架的核心计算模型，全称为弹性分布式数据集（Resilient Distributed Dataset）。本文详细解析了RDD的基本概念、特性及其在Spark中的关键操作，包括创建、转换和行动操作等，帮助读者深入理解Spark的工作原理和优化策略。通过具体示例和代码片段，进一步阐述了如何高效利用RDD进行大数据处理。 ... [详细]

蜡笔小新 2024-10-29 20:10:01
case
深入解析十大经典排序算法：动画演示、原理分析与代码实现

本文深入探讨了十种经典的排序算法，不仅通过动画直观展示了每种算法的运行过程，还详细解析了其背后的原理与机制，并提供了相应的代码实现，帮助读者全面理解和掌握这些算法的核心要点。 ... [详细]

蜡笔小新 2024-10-29 12:31:50
io
使用OpenSSL自建CA证书（实测有效）

本文详细介绍了如何使用OpenSSL自建CA证书的步骤，包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]

蜡笔小新 2024-11-13 09:55:03
io
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
io
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
io
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
io
Bootstrap 学习指南：全面掌握前端框架的核心知识点与实战技巧

### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例，介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节，揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性，如响应式设计和组件定制，为开发者提供全方位的技术支持。 ... [详细]

蜡笔小新 2024-11-09 16:58:21
io
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
io
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28
io
修复一个 Bug 竟耗时两天？真的有那么复杂吗？

修复一个 Bug 竟然耗费了两天时间？这背后究竟隐藏着怎样的复杂性？本文将深入探讨这个看似简单的 Bug 为何会如此棘手，从代码层面剖析问题根源，并分享解决过程中遇到的技术挑战和心得。 ... [详细]

蜡笔小新 2024-10-30 13:58:14
web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
io
在 Windows 系统上使用 Docker 构建 NGINX、PHP、MySQL、Redis 和 Elasticsearch 的集成开发环境

本文介绍了如何在 Windows 系统上利用 Docker 构建一个包含 NGINX、PHP、MySQL、Redis 和 Elasticsearch 的集成开发环境。通过详细的步骤说明，帮助开发者快速搭建和配置这一复杂的技术栈，提升开发效率和环境一致性。 ... [详细]

蜡笔小新 2024-11-07 06:06:15
io
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09

手机用户2502911617_428

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章