热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

那些年,你所经历的运维

运维在不同的公司可能大不相同,因为不同公司的IT架构决定了你工作的不同技术着重点和复杂度。还有公司的IT发展水平,决定了你可能会经历的技术阶段。在公司里,运维部门的工作大致可分为以下

   运维在不同的公司可能大不相同,因为不同公司的IT架构决定了你工作的不同技术着重点和复杂度。还有公司的IT发展水平,决定了你可能会经历的技术阶段。在公司里,运维部门的工作大致可分为以下几类:保障正常运行、解决各类故障、IT架构扩展、调优与安全。这些工作干好了,都是会产生巨大价值的。相反一旦出问题了,运维就变成众矢之的,人们会觉得都是运维没做好,指责声骂声一片。别的部门加班,他们可以说我们在开发写CODE,在修改数据库、在导数据……总之就是在创造价值。而运维部的加班则是灰溜溜的,因为运维加班一般都是因为系统出故障了。说起那些年你所经历的运维,我想大家都会有一番感慨吧,算了让我们与往事干杯,忘却各种滋味一醉解千愁!

一、救火式运维
    初入行时,曾在一个小公司工作过两年。公司主要做广告设计,上上下下一百多人,有设计部、技术部、行政部、市场部等部门。公司里统一配备台式机,实行域控管理。在域环境下,每个电脑都有权限设置,不能自己随意在电脑上安装与卸载软件,这下技术部可真有得忙了。那时候公司里用的是盗版的PHOTOSHOP、AUTOCAD、3DMAX,这些盗版软件非常不稳定,安装的时候需要算号与破解,而且装完用上一段时间就打不开了。技术部加上部门经理总共就6个人,每天一上班就没有闲下来的时候,不是甲的PHOTOSHOP打不开了就是乙的3DMAX提示注册失败了,你过去解决问题时旁边还有别的员工在喊“快来啊,我的AUTOCAD也打不开了,客户急着要图啊”,让你恨不得有三头六臂,时间长了连自己都骂“该死的盗版软件,真是被你害死了”。就这样每天折腾来折腾去,后来大家干脆把这些软件都装在C盘里做了个GHOST的C盘镜像(加密码),并做成一键还原,谁的机子出问题了,直接过去输入密码一键还原,所有问题10分钟搞定。
   公司为了省钱,除了服务器其他买的都是组装机,到了夏季高温时,拥挤的办公区里电脑经常会出现蓝屏重启,或是3DMAX软件渲染时直接死机无响应了。运维人员就像是救火队,哪里有问题就往哪里冲,刚搞好这台,那台又蓝屏了。炎热的夏季,办公区里到处是汗流浃背的“救火”运维人员,那真是飙汗的人生无需解释。后来公司老总意识到这样太影响工作效率,下血本全换成了商用台式机,又买了一批正版软件,这一状况才改善了很多。那时候还出现了一件比较让人头疼的事,公司里用的杀毒软件也都是盗版的,员工由于工作需要经常要用到U盘,而那时WINDOWS病毒又比较猖狂,比如冲击波、震荡波等。这些随便乱插乱用的U盘很容易传播病毒,03年比较严重时,整个公司的80%的电脑都感染了该病毒,那个倒计时关机的对话框至今让我记忆犹新,技术部连夜奋战杀病毒打补丁加固系统才最终让全部电脑恢复了正常。此后,公司里禁止使用私人的U盘,提供每天杀毒的公用U盘给大家使用,还建立了几台专用的文件服务器方便大家使用。
   这一阶段,主要经历的是初级的救火式运维,这种运维管理办法使得工程师们疲于奔命,但仍不能保障IT系统的持续、稳定,也不能有效缓解运维人员的工作压力。

   
二、项目式运维
    之后跳槽来到一家互联网公司,该公司不大不小三百来人,主要做系统集成和项目运维。来应聘的时候,可能给面试官留下的印象比较好,结果比较幸运的被外派到一家著名外企做项目运维。这家外企的运维体系很好,有一线7*24的监控和二线的运维排错以及三线的厂商技术支持。我当时做的是二线运维,每天一上班先打开邮箱,看邮件根据邮件的警示级别进行轻重缓急的故障先后处理。每次处理故障前,都要写详细符合规范的故障记录单并附上解决步骤,报批后才能操作,真的感觉很规范和严谨,让我觉得很有一流大企业的范儿。在解决故障之余,不忙的时候我就看看他们共享的一些技术文档,从初始的项目构建、系统实施、性能测试和各种服务器、网络设备、存储的资料以及故障的累积记录都比较全,我仿佛进入了一个巨大的知识宝库。每天完成例行工作和故障处理后,我都如饥似渴的看技术文档上网查资料,试图更多的了解这个复杂庞大的系统,它的每一处精妙配置和细节都让我揣摩良久,就这样我慢慢弄懂了它的运行机制和整个系统架构。再后来我又花了一个多月的时间把它的故障累积记录都研究了一遍,对照以往的故障问题处理文档认真学习了一遍,我感觉自己充实了很多也自信了很多,对一些故障的处理我能准确的记得以前是如何做的现在还需要如何改进,文档的细致和精确的命令让老外对我刮目相看,他们也更加信任我提出的技术解决方案。
   由于业务的快速发展和系统的功能增加,后面跟着他们的工程师做一些新项目的部署和实施、性能测试、数据迁移、系统扩容等,也学到了很多项目经验和架构技术。他们在技术上的细致和严谨性,让我很是佩服。通常一套程序都会先在试运行环境进行测试,再放到检验环境进行稳定性测试,最后才拿到生产环境进行上线,这样的程序运行起来真的是很稳固了。每月还有一次项目运维分析会议,会上通过各位技术人员的交流,问题的细节也清晰明朗化,很多时候也打开了思路。在这个外企我学到了很多,也见识了一流的技术人才,虽然他们不是和我一个国度,但在技术上我佩服和尊敬他们。因为是外包性质,我们是乙方,在别人的公司里驻场上班,我始终找不到一种归属感,有时候面对甲方还必须要委屈和迁就,面对客户的挑剔和领导的弱势,我想最终不可能融入那里的,后来我离开了这家外企。

  这一阶段,主要经历的是项目式运维,或者叫外包式运维。这种运维是以项目及结果为导向的,比较多的是受制于甲方的IT管理体系和设计,甲方的要求会在很大程度上决定你的工作重点和方向,因此运维人员是缺乏话语权和主创性的。


三、ITIL标准化运维   
    离开外企后,我进入一家集团公司工作。这里正在推行ITIL标准化运维,说到ITIL其实已经不再是一个新生事物,随着企业业务的复杂化和IT应用系统的拓展,运维的标准化和流程化是必须的。
    相对于传统运维,实施ITIL必先从理念上进行改变。那么如何在企业里推行ITIL运维呢?ITIL运维体系下如何做好运维工作呢?我恰好经历了这一阶段,也亲身体会了其中的变革过程。
    在中国的企业里,做什么事必须有领导的支持。首先是自己要学习领悟ITIL理念,然后是说服公司高层领导,最后让中层管理者在认识上达成一致。ITIL给企业带来的变革不仅在IT层面,而且也体现在经营管理层面。比如原来组织内部的人员和岗位,从一定程度上可能都不适合ITIL架构,需要先把大家的岗位打散,然后再定岗定角色安置人员,这可以算是组织结构的大调整。当然在岗位调整过程中,有些人员可能和位子不太搭配了,就做调换,挑选合适的人来做。这样的大调整,没有领导的支持基本是没法做的。在不少企业中,往往囿于组织结构变革的压力,采用了硬往ITIL上面靠的办法。说到底,还是领导的支持力度不够。
    在实际工作中,你还会发现,每个公司本身往往都有多年的历史沉淀,如果完全按照ITIL的理想标准去做,可能根本就行不通。如何把ITIL最佳实践标准的理想和公司运营的实际状况去磨合,这将是我们应该花费更多时间和精力去考虑的。比如一个明显的问题--公司人员专业化细分。按照ITIL的要求,职员角色划分得越细、越清晰越好。这样做的有利之处在于容易避免工作中的扯皮。但实际上一个公司的运维部根本没有那么多人,很多时候都是一个人身兼多重角色和多个职务。这种详细的职责划分和专业分工也只有在公司业务达到相当规模后,才会产生规模效应。纯粹按照理想的标准去做,不现实也不可能。最后我们采取了折中的办法:人员少,职务多,只有暂时一个人身兼多个职务。随着人员的扩充,逐渐把多重角色分出去。实施ITIL标准化运维一年后,公司运维人员增长了近一倍。
  再一个人员考核的问题也比较多。按照ITTL顾问制定的考核标准,要对公司员工进行细致的考核。从定性到定量,每个人的考核要素都很齐备。以现场运维工作人员为例,就包括一次性问题解决率和客户对运维工程师工作质量的评价等。如果人员分工做不到那么细,一人身兼多重角色,也为量化考核带来了难题。虽然各种管理工具能够给出一些量化的数据,但具体到某个员工的考核,系统工具也不能完全反映一个人的各种角色所完成工作的成绩和质量,但工程师做过的这些工作并不应该被抹煞。
  在过去,无论是对网络的维护还是服务器、数据库的运维管理,工程师的经验往往最重要。好多故障的处理也多是“救火”,治标不治本。每一个技术问题,其实都会有多种解决方法。甲和乙两个工程师的解决方法可能完全不同,但结果可能都挺好,客户都满意。如果这两位工程师跳槽了走了,解决问题的办法也就随之流失,新来的员工还要重新摸索重新熟悉环境。如果有统一的流程和事件管理及事后的案例积累和知识库的建立,就可以不管谁来做,都能按照这个流程和规范来走。这样即使公司有人员流动,但流程一致确保了整个运维服务质量的稳定。  
    在运维工程师解决问题的过程中还可能会涉及到变更管理和配置管理。比如说,一个服务器的性能较差,可能会引起很多问题,换内存、换硬盘、调试系统的问题可能频繁发生。这些就会带来系统变更。而如果找到了真正原因,对服务器进行了参数配置变化,就涉及配置管理了。
  对于企业来说实施ITIL,将有助于最终实现完善的服务管理。在ITIL的各个流程管理中,可以直接与企业各个业务部门相互作用,实现对业务功能及流程进行重新设计,降低成本、缩短周转时间、提高质量和增进用户满意度。但ITIL的流程固化,人员分工也固定,感觉运维的灵活性多多少少会有些损失。问题在于,一个工程师在一个岗位上干得久了,就会有一定的职业倦怠感,而轮岗就会更不适应了。同时精细的分工会导致一个问题的处理会需要多个部门和多个人员的参与,无形中延长了处理问题的时间。

四、开放式运维
    随着应用复杂度的发展和大数据的洪流,云计算和虚拟化将会是一个趋势,不管是公有云、私有云还是混合云,整个IT业的发展都面临巨大的机遇和挑战,当然云计算时代的运维也面临许多新的变化。   
 
    首先在云计算时代,有的企业会有自己的数据中心,构建企业内部的私有云;有些企业则会全部租用公有云,不建立自己的数据中心;还有的大型企业既拥有自己的数据中心,同时也应用外部公有云。在这种混合IT系统运行环境下,运维无疑将变得更为复杂,也给IT系统的维护和管理带来了诸多挑战。例如对异构平台的虚拟机的管理,包括其性能和容量管理等都更为复杂。
 
    另外向云的迁移将会改变很多IT运维人员的工作职责,部分IT基础设施运维和数据中心日常管理的工作会都转移到云服务商那里。IT运维人员将会逐步转移到对业务的理解和供应商管理,确保可以根据业务部门的需求,交付高质量、低成本的IT服务。在大多数企业内部,以往的运维工作比重有可能降低,而对于整体IT的策划和执行能力,对于供应商合作伙伴的正确评估、管理等更高层的工作比重将会增加。IT运维将会投入更多时间关注业务、对供应商的评估和管理,而不再像以往那样花费大量精力来考虑存储容量、系统配置和优化等。

    最后一点,云计算的时代需要开放式运维,也要求运维工程师需要更广阔的知识面,比如如何选择存储?各种存储的特点是什么?各种虚拟化系统的特点是什么?业务刚开始上线的时候,如何为未来的横向扩展做好准备?Hadoop这个东西究竟适不适合我们?等等?这一切都需要我们去学习和思考。再有就是必须能够与产品技术团队紧密配合,对开发流程有深刻的了解,并且在需要的时候,自己也能抡起袖子上阵写代码,这样才会实现快速的迭代部署。不要怕跨领域,身为运维,就得像什么都懂的神仙。企业雇用每一个员工都是为了创造价值,越能够贴近企业的核心价值,才越能够成为企业中被重视的人。

    一切都在不断地发展变化,运维唯有变才能更好的适应未来的变化,从而提高自身的价值和增强企业的竞争力。

    让我们热情的拥抱变化吧,开放式的运维需要我们的思维像视野一样开阔!    

本文出自 “滴水穿石孙杰” 博客,谢绝转载!


推荐阅读
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 从Oracle安全移植到国产达梦数据库的DBA实践与攻略
    随着我国对信息安全和自主可控技术的重视,国产数据库在党政机关、军队和大型央企等行业中得到了快速应用。本文介绍了如何降低从Oracle到国产达梦数据库的技术门槛,保障用户现有业务系统投资。具体包括分析待移植系统、确定移植对象、数据迁移、PL/SQL移植、校验移植结果以及应用系统的测试和优化等步骤。同时提供了移植攻略,包括待移植系统分析和准备移植环境的方法。通过本文的实践与攻略,DBA可以更好地完成Oracle安全移植到国产达梦数据库的工作。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • 本文介绍了禅道作为一款国产开源免费的测试管理工具的特点和功能,并提供了禅道的搭建和调试方法。禅道是一款B/S结构的项目管理工具,可以实现组织管理、后台管理、产品管理、项目管理和测试管理等功能。同时,本文还介绍了其他软件测试相关工具,如功能自动化工具和性能自动化工具,以及白盒测试工具的使用。通过本文的阅读,读者可以了解禅道的基本使用方法和优势,从而更好地进行测试管理工作。 ... [详细]
author-avatar
手机用户2602890095
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有