IT运维之道(txt+pdf+epub+mobi电子书下载)


发布时间:2021-05-17 15:28:16

点击下载

作者:李鹏

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

IT运维之道

IT运维之道试读:

前言

这么多年,从事IT服务及其管理工作,觉得IT服务就像一本奇书,初读它时,觉得懂了,用起来却差强人意;有时候突然从里面发现了什么似的,又转瞬即逝;有些道理看似平淡,多年的感悟才体会到是千真万确的真理。于是,兴趣所致,常常在夜深人静时把一点一滴的得与失进行思考总结,日积月累,便有了一些积淀。而平时,在日常的工作中发现不少积极向上的同事也在探索IT服务的道路。在朋友和家人的提点与鼓励下,把多年的经验与心得凝聚成册,最终促成了此书的面世。希望与广大读者分享自己的经验,在IT服务的道路上早入门、少走弯路,在做人做事方面成就自己的梦想。

本书共分为五大篇,即机遇篇、做事篇、处事篇、技能篇和高级篇。每篇又分为若干章节,从不同的层面、角度阐述做人做事的方法以及相关基础知识。由于IT服务中最主要也是最基本的服务就是IT运维服务,因此本书对此方面的着墨最多。IT服务有很多,但其工作方法都是相通的,掌握了IT运维服务的方法就能推而广之、融会贯通。希望本书的有关内容能够成为IT从业者或即将从事IT服务的读者一个指引,为成功遨游于IT服务领域奠定基础。

在本书的编撰过程中,冯励、周德照、周延斌等同事给予了大力支持,在此向他们表示感谢。

由于时间仓促,书中难免有一些不足之处,恳请广大读者批评指正。编者机遇篇第1章 奇葩的IT男第2章 机遇就是选择大于努力第1章 奇葩的IT男

故事总是充满奇遇,我们这篇的主人公也不例外,几年前还是在校生的王某某,我们就叫他王大锤吧,在毕业前夕也不知不觉经历了一次人生重大机遇。

1.1 半年月薪过万

作为××理工大学计算机软件专业的王大锤,在毕业前夕,同大多数同学一样希望成为一名软件工程师,在软件王国扬名立万,然而这时的他可能对四年的学校生活有些后悔,回想大学生活除了熟悉的教室、食堂、宿舍和自己的笔记本电脑以及Dota外,其他几乎空白。田径场上没有他的英姿,各种社团也没他的事,组织上也没靠拢,成绩嘛也几乎是60分万岁,甚至连唯一一次谈过的女朋友,也被师哥掠走。没有亮点的他投出去的简历几乎石沉大海,最后一个做IT运维的公司要了他,工作是为一家大国企做桌面计算机(俗称电脑)维护,同时表姐给他报了个DB2数据库系统管理员培训课程。奇怪的是王大锤对DB2异常有兴趣,也许这段时间只有沉浸在这里才能暂时忘记他失败者的感受。就这样,一晃半年过去了。一天公司承接了该国企的数据库运维服务,人员不够,问谁会,王大锤说他会,并通过了公司的考试,成为了DB2数据库维护团队中的一员。加入团队后,大锤激情四射,也是年轻,常常为处理数据库的问题通宵在企业里加班,当东方开始发白的时候问题也解决了,得到了客户的多次肯定与表扬,老板给他加薪过万了。感受到成功的喜悦,他第一个想到的是给前女友打电话,想请她吃饭,要高档点,可惜,“您拨的电话是空号”,只好请几个学校的室友喝啤酒,听说大锤月薪过万后,几哥们大吐牢骚,说××软件公司人才济济,他们新兵压力大,没出头机会,月薪才四千多元,不如他呀,大锤听了不知怎么就这么入耳!

1.2 三年当部门经理

有了这次成功的体验后,大锤来了劲,爱上IT服务,在自己的工作中发现光有激情还不够,规范到位的服务非常重要。那什么才是好的规范服务呢?大锤在网上查了很多资料,决定瞄准国际经验,开始自己报名学了ITIL,通过ITIL的学习,明白了很多,开始给公司建言献策,建立起各种规范制度,并成为公司ISO 20000项目骨干,最后公司通过了ISO 20000认证。除了服务意识、ISO 20000的学习与建设,还不断提升自身技能、管理能力等,一步步从项目经理、业务组长、部门副经理走了过来,短短三年时间当上了小型机服务事业部总经理。

1.3 IT服务的创意人生

大锤不但技术水平好,而且服务态度好,对客户总是笑脸相迎,这几年的历练,讲话水平是大幅提高,不但技术方案讲得头头是道,而且对不同客户的商道也摸出了路数。有客户劝他自己开公司,在一帮老同学的簇拥下,大锤技术服务公司诞生了。公司秉承规范服务、优质服务的理念,生意越做越大,由IT运维服务,到IT运维、IT培训、IT咨询、IT服务外包等综合发展,大锤的事业蒸蒸日上,男人的自信从他的言谈举止中透射出,当然,身边的女性朋友也多了起来,他开始了自己的创意人生。前一段时间还搞了一次公司与客户的篮球比赛,还硬要当地电视台报道,自己还当前锋,说是与客户加深感情,同时搞活企业文化,谁知道他在想啥呢,因为他知道,前女友就在当地……第2章 机遇就是选择大于努力

前面的故事说明一个道理,人生的选择很重要,选择有时大于努力,大象与蚂蚁都很努力,但结果的分量是不一样的,2004年如果你一咬牙(或者再晚点)买了房,十年的巨幅增值,比你现在干哪行都赚得快,但是往往有选择就有痛苦,这种痛苦来自于对未知的恐惧和现实需要的付出,作为一个IT从业者或是即将从业者,你该怎么选择,我们来分析分析。

2.1 IT开发还是IT服务

从宏观上讲,现在软件产品已是百花齐放,品种众多,而整个国家GDP增速也不会像以前那么高,大规模的开发时代应该过去了,客户由追求软件数量到追求IT品质,IT服务就变得越来越重要了。从数据上看,中国IT服务市场在2011 年恢复高速增长,2010-2013年中国IT服务市场呈现高速增长态势,同比增长率逐年递增。2010年中国IT服务市场规模达到1218.56亿元,同比增长19.37%,2011年市场规模达到1507.28亿元,同比增长23.69%,增长速度逐渐恢复,2012年市场规模接近2000亿元,达到1912.15亿元,同比增长26.86%,2013年市场规模达到2430.78亿元,同比增长27.12%。

所谓IT服务是指服务商利用计算机有关专业知识、技术、硬件设施或软件为用户提供的一系列服务,为IT服务。如:IT硬件的维护或维保,基础软件或应用软件的维护与升级,IT技术技能以及管理的培训,IT运行或管理的咨询,计算机有关设备的租赁及使用,通过应用软件为用户提供有偿或无偿服务等工作都是IT服务。也就是说,你单位里的IT部门是在为你提供IT服务,IDC也是在提供IT服务,微信、微博、QQ还有你手机上的一堆APP都是在为你提供IT服务。目前,在IT服务的大家庭中,IT运维服务占有越来越显著的地位,而且也是IT服务的基础性工作。伴随着电子商务、移动互联、网上或移动支付的崛起,系统的安全性、稳定性、运维的可靠性越来越进入IT服务界大腕儿们的视野。

从上面看,IT服务大有可为,我常把IT工作比作医务工作,而不是建筑队、物业队,之所以比作医务工作,首先它们都既是工程又是艺术,其次是它们都离不开人,IT开发像外科医生,中年最吃香,IT服务像内科医生和保健医生,越老越值钱,需要靠经验,一个系统的问题,像是老祖宗的太极图,问题是多种因素造成的,这些因素又相互关联,你中有我,我中有你,问题的处理很多时候是一种平衡,IT运维或更广点的IT服务这种职业是一种在学习、探索、积累中不断提升自己经验值的职业,它让你的职业生涯充满好奇、充满挑战、充满智慧与成就感;从事IT开发的人员要求快速上手,开始时劳动强度比较大,中年时会考虑是提升的机会多还是转行更好,毕竟项目经理、高级设计师、需求分析师的职位少,而IT服务(包括运维、拓展、培训、咨询、数据处理、测试等),无论你在客户服务线,还是技术支持线,还是管理线,原则上都有很广的上升空间,且越老越值钱,但从IT开发转过来的人也很有优势,所以说,选择一个职业,还要看看自己的兴趣爱好、特长等,如果你年轻,如果你还不清楚自己的定位,为什么不去多尝试一下呢,反正你的沉没成本低。

2.2 早选择,早领跑

我们从读小学起就在有意无意中进行选择,比如课外班选择读奥数的人到了高中更倾向于读理科;课外班选择艺术类的人到了大学更能显示出文艺范儿;课外班选择外语的人到了工作中更容易进入外企就业。很多人以为冥冥之中他们的职业选择是上天安排的,其实兴趣班的选择往往在人们的职业道路上已经悄悄地开始了铺垫。比如IBM 2002年收购普华永道之举,当时来看颇有壮士断腕的勇气,而目前再看实乃明智之举。当下,全中国IT从业企业都高举IT服务的大旗时,我们不得不佩服IBM选择从IT制造业转向IT服务业的当断则断的魄力。早选择往往就是太极拳中四两拨千斤的巧劲。

前面讲的王大锤就是因为一次意外,比同学早选择了IT服务这个行业,结果,把以前在学校比他优秀的同学甩在了后面,其实,关于他的故事本想写部长长的励志书,但不是本书重点,在此略去。

那怎么早选择呢,确实越早选择越难选择,选择不是天马行空,选择要与自己的专业相结合,要与自己的志向相结合,要与自己的兴趣特长相结合,一般情况,一个从事IT服务的人员应具备必要的计算机基础知识,善总结、爱积累、好学习,要有持之以恒的信念和热爱服务的理念,至于个人性格外向型点还是内向型些,我觉得都能在IT服务中找到自己的位置,无论怎样,本人是IT服务的一名从业人员,当然欢迎你们加入IT服务这只队伍,并尽早成为这只队伍中的达人。做事篇第3章 IT运维做什么第4章 有目的、有计划地做事第5章 注重规范性和完整性第6章 高效率和高质量第7章 亲和性和系统性第8章 懂业务和善思考第9章 其他服务第3章 IT运维做什么

3.1 IT运维的四件要事

IT服务中最主要也是最基本的服务就是IT运维服务,我们就从这里说起。

当2014年春节微信红包派发之际,移动互联网行业惊呼“微信一个晚上绑定一个亿的用户,干完了支付宝八年的工作”。微信只用一晚上就完成一个亿的用户绑定,按照一晚上8个小时计算,平均每小时微信需要处理1250万用户发起的绑定请求,平均每秒钟微信要处理3472个用户,同时完成每个用户的红包派发流程。凡是参与过2014年微信红包派发或领取过的人,几乎都能较为顺畅地绑定银行卡,派发或领取红包,个人的微信账号上也能即时显示每个人所领取的红包个数和金额等。这套完整的银行卡绑定和红包领取流程,用户的体验如此完美,其幕后是由一套完备的IT运维服务支撑体系来实现的。这套完备的IT运维服务支撑体系包括强有力的技术平台,更包括周到的服务流程和应急准备以及以用户体验为核心的服务实施。想象一下,正当全民在享受阖家欢乐的祥和春节之际,一台台闪着绿灯的服务器在高速地运算着,一位位尽职的运维工程师还在终端前监测着系统的状态,保障着系统的顺畅运行,这些幕后的英雄们创造了又一个移动互联网的新应用奇迹。

长期以来人们获得的一流的IT服务体验都是由一套完备的IT运维体系来支撑的。这套IT运维支撑体系容易让人们有一种错觉,即IT运维服务是以技术为核心的。因为在用户的眼里,好的IT运维服务总是取决于IT运维服务者技术能力的高低,遇到水平高的工程师常常只需要几分钟就能处理完成,而遇到水平低的工程师常常要耐心等上好几个小时才能解决问题。而这只是事实的一部分,一流的IT服务体验来自于以用户服务为核心的战略,即一个为用户服务的文化理念、一套标准规范的流程、一套科学有效的服务方法是用户获取最佳体验的基础,在基础之上才是技术。我们说当今最具代表性的产品就是苹果公司的iPhone手机,它为用户提供的极致体验是以用户需求为出发点,借助高科技的创新手段来实现的。

高效能的IT运维服务者如同一名技艺高超的保健医生,在用户眼里是IT技术专家,在内行人眼里是IT服务专家。保健医生首先是全科医生,能够把人当成一个整体来帮助我们预防疾病的产生和治疗常见的疾病。IT服务专家正是具备这样全面的IT系统保健能力,他们能够把IT技术和IT服务当作一个有机的整体,让内行人士能感觉到我们有专业的能力为IT系统的健康保驾护航,让外行人士看到、听到、感觉到IT服务者能够在大多数情况下一次性高效率地解决问题。

那么IT运维服务的主要工作有哪些?这首先要从IT运维服务的目标说起,IT运维服务的简单目标就是确保所维护的信息化系统安全、高效、平稳地运作。IT服务专家根据这个目标向IT系统使用者提供优质的IT服务,因此IT运维服务人员如做好四件事情,就可以达到事半功倍的效果。四件要事概括来说就是:一是按照IT运维服务的原则做事,IT运维服务的原则即事先讲计划、重承诺,事中讲规范、重控制、有反馈,事后重效率、能应急、有保障共八项原则。二是掌握好IT服务的平衡,重点是掌握好主动服务和受理服务平衡的艺术。三是落实信息系统的整体运维服务,信息化系统的整体运维要从做好相关子系统的维护入手,从信息化系统层面来看可分为软件支撑系统、应用系统、计算机硬件设备以及机房和环境四个子系统。四是将运维服务流程贯穿IT运维过程的始终。IT运维服务流程的核心流程包括:事件流程、问题流程、配置管理流程、变更流程、发布流程。图3.1示出了IT运维的四件要事。▲图3.1 IT运维的四件要事

3.2 IT运维服务的原则

前面大家了解了IT运维服务的主要工作内容,作为我们IT运维服务者如何做好这份工作呢?运维服务工作看似简单,不少人认为就是修修电脑、调调软件等,自比物业,不善总结,结果一年忙到头,既不被用户认可也不被老板重视,面对困惑我们多少会问下自己,自己是做得多好呢还是做得少好,是忙点好呢还是闲点好,我们这里要回答:“不!是做到点上才好,怎样才能做到点上呢?”

首先是要用心,用心做事才能成功,当然这里面确实有技巧,我们首先要知道IT运维服务的总体原则:事先讲计划、重承诺,事中讲规范、重控制、有反馈,事后重效率、能应急、有保障。这几个方面是相辅相成的,有了计划才能按照计划与承诺去开展相关工作,在这个过程中要体现出规范性,并有效控制各种风险,对于服务过程与结果应向用户进行报告和反馈;同时,整个运维工作应体现出积极的效果,包括运维效率、应急与保障能力等。只有这样,运维工作才能满足用户的需求,并达到预期的效果,实现用户放心、舒心、开心的目标。

3.2.1 讲计划《草船借箭》是我国三国时期的一个故事。周瑜 为陷害诸葛亮 ,要诸葛亮在十天之内造好十万支箭。诸葛亮算定了大雾之日,便借子敬二十只草船驶往曹营,曹操因疑雾中有埋伏,便令以乱箭射之。待至日高雾散,孔明令收船急回,船轻水急,曹操追之不得,使孔明既安全借得箭,又挫败了周瑜的暗算,表现了诸葛亮有胆有识,才智过人。《草船借箭》中诸葛亮的胆识才智受到后人的赞美,不过我以为诸葛孔明最令人叫绝的是他的这次策划,因为有这次天衣无缝的策划,所以胸有成竹,轻轻松松,成绩显著。而策划用在运维上就是计划。

所以,想在运维过程中轻轻松松,又能做到点上,就要重视事先的计划,计划来源于和客户达成的承诺或领导的命令,在整个运维过程中,计划是整个工作流程的核心,年度计划(依据服务承诺制定)又是计划中的龙头,按照计划先行的原则,依据本年度工作计划制定分项工作计划(如巡检计划、监控计划、培训计划等)和时间维度计划(季度工作计划、月度工作计划等),并遵流程、按计划进行实施和保障。所以,工作计划是真正运维具体工作的龙头,它是围绕实现服务承诺而制定的,各分项工作计划(如巡检计划、监控计划、培训计划等)和时间维度计划(季度工作计划、月度工作计划等),都应以确保实现服务承诺为前提。其中,现场巡检计划是运维工作计划的核心,因为现场巡检工作具有重要的作用和意义,通过现场巡检能够发现系统薄弱环节、关键业务节点、存在的隐患,尤其是对制定应急预案及备品备件计划至关重要。当然,写得再完美的方案如果不做就等于纸上谈兵、水中之月,所以,计划执行应是重点,企业的成功很多时候是赢在执行,运维体系能否严格按照工作计划执行是运维服务效果能否达标的关键因素之一。当然,如果计划发生变化,那么如何执行也应进行相应更新和变动,以适应工作计划需要。在运维执行过程中,应严格按照流程规范开展运维,并注重控制以降低运维风险。针对运维执行情况,应定期向用户进行反馈。不过计划的粗细、时间跨度要依据项目和公司情况而定。

最后,要将工作计划的执行效果及运维结果与服务承诺进行对比,对比的结果应作为改进工作计划的输入,确保对用户的承诺能够达成。在此过程中,运维人员将根据工作需要定期或不定期将运维工作情况向用户进行反馈与汇报,让用户全面了解整个系统运行情况及运维工作情况。因此,总结起来可以说,运维工作执行来源于计划,受控于流程,输出于反馈,更新于实践。

3.2.2 重承诺

获得用户的信任是长期、稳定、深入开展运维工作的基础和前提,而要获得用户的信任,很重要的一点就是讲求信用,即重承诺。重承诺是IT运维服务商向用户提出具体的运维服务承诺,并认真做好运维工作,确保各项运维指标达到标准,从而获得用户的信任,让用户放心。用户对运维工作的信任需要长期、耐心、深入地开展工作。

对于用户的任何承诺,都应严格予以履行,确因特殊原因导致无法履行时,应提前和用户进行说明和解释,并获得对方的谅解。简单来说,对于用户不要轻易许诺,而一旦许诺,就要做到。具体体现在以下方面:(1)事先和用户约定服务级别协议(Service Level Agreement,SLA),对于所承诺的服务级别目标应严格履行。(2)对于给用户所做的书面或口头承诺,包括提供的资源、提供的方案、应给与的回复,都应在约定的时间内、按约定的要求予以提供或实现。(3)向用户进行承诺后要认真执行相应的工作任务,确保服务承诺可以达成,重点是给用户的各种计划,应按计划安排予以执行,确需调整应提前向用户进行说明以调整计划。(4)对用户做出的书面服务承诺必须达成,当预判对用户的承诺在既定的时间内可能无法达到时,应提前向用户解释,并提出补救措施,以尽量达到服务承诺的标准。(5)及时向用户汇报各项服务承诺达成的情况,让用户了解我们对运维承诺的重视和执行力。

3.2.3 讲规范

没有规矩,不成方圆。运维工作尤其需要注重规范性,讲规范就是按照既定的工作流程、礼仪、制度、要求等开展工作,这会让用户感受到我们的运维服务是透明的,符合科学流程的。这项工作的价值还体现出服务的一致性,无论用户在何时向任何运维工程师提出运维服务要求,他们均享受品质一致的运维服务,获得良好的服务体验。

讲规范,具有以下好处:(1)对于所有运维人员,能够按照统一的服务规范开展工作,使运维参与者均能形成优良的服务意识,以确保运维服务质量。(2)清晰的工作流程能够使用户感受到运维服务的专业性、一贯性。(3)有效的执行服务流程能够确保其中的每个角色职责清晰,进而提高运维效率。(4)统一的服务礼仪能够体现运维工作者的良好形象,规范的文档编写能够体现运维人员的专业素养,这均有利于用户满意度的提升。

要做到讲规范,重点要做好以下工作:(1)按照运维管理体系制定完备的运维工作流程,按照流程的角色定义,明确各角色在流程中的职责。(2)通过培训让全体运维人员熟悉并掌握运维工作规范的要求,通过沟通让用户充分理解运维工作流程的执行效果对用户的重要性。(3)运维服务者通过日常工作认真落实各项运维工作流程与规范,借助运维服务管理平台记录工作执行的过程与结果。(4)运维管理者通过定期汇总分析常见故障和突发事件量及事件完成质量,了解流程规范执行的落实效果,并在此效果基础上持续改进。

3.2.4 重控制

重控制是为了控制运维服务质量达到运维服务承诺的要求而开展的工作。主要涉及两个方面:一是确保运维服务目标按要求达成,二是有效控制运维服务过程中的系统风险。在运维过程中,若不注重控制,将很难保证运维服务结果达到约定的要求,而且,有可能发生一些影响较为恶劣的重大事故,比如业务中断、数据丢失等。因此,在运维过程中注重控制,将有效规避风险,保障运维服务质量。

重控制包括关键流程节点控制、操作痕迹化管理、变更控制、发布控制、定期回顾并出具服务质量报告等。具体措施包括:(1)按照运维服务的特点梳理运维服务流程的关键节点,将关键节点的日常运维工作文档化。(2)运维过程要体现痕迹化管理,所有事件、变更、发布等环节的处理细节均应被完整记录下来,作为质量跟踪的依据。(3)对于系统变更,均应受控于变更管理流程;所有变更均应充分评估风险,并在实施前经过严格测试,制定好回退机制,确保风险可控的情况下进行变更实施;若因故变更失败,亦能通过回退机制恢复服务。(4)对于系统发布,均应受控于发布管理流程和变更管理流程;所有发布均应提前进行严格测试,制定好回退机制,确保风险可控的情况下进行发布实施。在应用部署发布前制定测试方案及运维保障实施方案。(5)定期开展事件流程的回顾会议,对于存在的问题或风险进行分析并提出改进措施,并在下一个周期内改善服务质量、规避系统风险,以有效控制整体运维服务质量。(6)内部严格按照“运维报告机制”进行内部报告和审核,以对相关情况纳入跟踪控制范畴,按照统一口径进行处理。(7)在运维实施过程中定期(如每月或每个季度)进行流程执行过程与结果的检查与回顾,对于存在的问题或风险进行分析并提出改进措施,可在下一个周期内改善服务质量、规避系统风险,以有效控制整体运维服务质量。

3.2.5 有反馈

与用户建立良好的沟通是做好运维服务的关键。有反馈主要指运维服务者向用户及时反馈信息。有反馈就是在做好运维服务的基础上,让用户及时了解我们的工作情况,适当的运维信息反馈给用户是必不可少的。用户作为运维服务的消费者也是最终受益者,如果对运维工作不了解或了解不透彻,从某种意义上说是用户的损失,也是运维服务者对运维服务质量不够重视的体现。

向用户进行必要的反馈,能达到以下目的。(1)对于用户的关切点,包括系统运行状况、潜在风险情况、运维工作情况等,定期通过书面方式报告给用户,这充分尊重了用户的知情权,并且可让用户全面了解系统整体情况及运维情况,进而对运维产生信任感。(2)对于重大事件的处理进展,定时向用户进行报告,有利于缓解用户的紧张和急躁情绪,避免运维工作陷入被动。(3)对于用户提出的需求,按时予以反馈,能让用户感到自己的建议和意见获得足够的重视,从而建立良好的工作关系。

做好运维过程中的沟通反馈主要包括以下几方面。(1)定期向用户出具运维工作情况报告(如周报、月报、年报),向用户展现系统运行情况、潜在风险分析、隐患发现情况、故障受理情况、其他各类服务情况及运维服务建议等。(2)在处理重大事件过程中,按与用户约定的频次主动(如每半小时1次)向用户报告故障的排查情况、处理进展和预计恢复时长等。(3)对于各项需要向用户进行反馈的信息,应事前制定“运维报告机制”,运维服务者都应该按照“运维报告机制”进行内部报告,并有各级管理人员审核,从而可以将相关情况纳入内部质量跟踪控制范畴。同时经过报告和审核的内容要按照报告机制及时向用户做出口头或书面等报告。(4)对于用户提出的各类咨询或服务请求,应在处理过程中及时向用户报告处理进展或解决建议,积极主动和用户进行沟通交流。

3.2.6 重效率

一般来说系统一旦发生故障,用户往往希望能够在最短时间内解决,对运维效率提出了很高的要求,尽量减少对业务造成的时间或金钱上的损失。重效率是指在处理各类故障和咨询服务时,我们始终做到快速响应、迅速处理。这需要运维服务者能够做到及时响应需求、快速定位故障、安全排除故障。运维服务者如果能够满足将重效率和有反馈有效地加以运用,可获得用户的充分信赖。(1)运维服务者均应树立“想用户之所想,急用户之所急“的观念,将用户对解决问题的迫切性放在首要位置。(2)运维管理者应该按照科学化的理念测算各类故障级别的平均恢复时长,安排运维工程师对每一个级别的故障排除方案进行反复演练,一旦故障发生能够熟练地处理故障,快速解决问题,稳妥恢复业务。(3)运维质量管理部门通过日常事件处理的服务恢复时长检查运维事件处理是否能够达到快速响应和处理的要求。(4)建立IT服务管理体系,定期回顾事件处理效率在哪些方面存在改进的空间,定期发起持续改进。

3.2.7 能应急

对于用户而言,IT系统仅仅是帮助他们完成业务的工具,只有当用户使用的过程中出现故障,用户才会感到运维服务者的重要性。IT运维专家作为IT系统的保健医生,一方面要预见到系统的故障,另一方面也应该能够排除故障,这是成为一名IT运维专家的核心要求。对于系统突发的故障,尤其是影响程度高的故障,若能快速应急响应并迅速解决,就会在用户和我们之间建立充分的信任关系,若所有突发故障均能迅速解决,将使用户对我们产生信赖感,即在信任的基础上形成依赖。因此,整个运维服务团队的应急保障能力至关重要。

为了体现应急保障能力,可采取以下措施。(1)建立应急预案,提前做好各类预判与准备,必要时定期对应急预案进行演练,包括:不同类型事件的应急保障团队、保障服务方式等,确保一旦突发故障真实发生能够有条不紊地按照预案进行应急响应和处理。(2)配备一定的应急服务装备,如处理故障的必备工具、排除故障的必需备件、恢复系统的必备软件、3G无线网卡、精确检测仪器等,IT运维专家首先是能够依靠技术手段提升应急保障能力的专家。(3)对于信息化系统中包含硬件设备的用户,我们应该建议用户储备必要的备品、备件和备机,一旦突发硬件故障且短时间内无法修复时,能够利用备品备件先行顶替故障设备,从而尽快恢复业务。

3.2.8 有保障

运维服务的效果体现为“有保障”,运维队伍给用户的感觉简单来说就是:召之即来,来之能战,战之能胜,从而让用户对系统放心、对运维放心。如果运维工作是有保障的,就能够消除用户的后顾之忧。

要做到有保障,可采取以下措施。(1)通过网络互动服务、电话服务热线,现场服务等多种运维服务途径让用户随时随地有问题都能够找到我们。(2)如果IT系统较大或较复杂,运维服务商内部建立起一线、二线、三线的运维梯队,二线对一线进行支持,三线对二线进行支持;系统开发商、设备供应商都属于我们的三线支持,必要时能够给予二线足够的支持与保障,确保整个运维工作是有保障的。如果IT系统较小或较简单,运维服务商不一定需要建立完备的一线、二线、三线队伍,但需要在岗位职责中包含相应的职责,从而确保运维工作流程是闭环的。(3)运维服务商内部有完善的软硬件支撑环境,包括:IT服务管理平台、电话呼叫系统、网上培训平台、全套运维模拟环境、运维协同办公系统等。(4)在重要时期,比如业务高峰期或重点节假日期间制定重点保障预案,严格按照保障预案执行,并在结束时向用户提交重点保障完成情况报告。

要做好IT运维就要理解这八项原则的要义,如果把IT行业比作江湖,那么知道IT运维需要做什么就是了解江湖的第一课。遵循IT运维服务的原则就好比一门高深的武功,练好武功首先要练好内功,这八项原则就是练好内功的秘籍,练到炉火纯青的时候,不但拳脚不能伤其毫发,就用刀劈剑刺亦难伤其毫发。

3.3 掌握服务平衡

IT运维的第一件要事是按照IT运维服务的原则做事,第二件要事就是将这些原则应用到IT运维服务工作当中。IT运维服务工作从服务的发起方来看可以分为主动服务和受理服务。

我们曾将IT运维专家比作IT系统的保健医生,保健医生最重要的能力是“治未病”的能力。在我国关于“治未病”最著名的故事是扁鹊见蔡桓公的故事。有一天,扁鹊进见蔡桓公,在蔡桓公面前站一会儿,说道:“您的皮肤纹理间有点小病,不医治恐怕要加重。”蔡桓公说:“我没有病。”扁鹊离开后,蔡桓公说:“医生喜欢给没病的人治‘病’,以此作为自己的功劳。”过了十天,扁鹊又进见,他对蔡桓公说:“您的病已到了肌肉和肌肤之间,再不医治,会更加严重的。”蔡桓公不理睬,扁鹊走后,蔡桓公又不高兴。过了十天,扁鹊又进见,他对蔡桓公说:“您的病已到了肠胃,再不医治,会更加严重的。”蔡桓公还是不理睬。扁鹊走后,蔡桓公又很不高兴。又过了十天,扁鹊再进见时远远看了蔡桓公一眼,转身就跑。蔡桓公特意派人去问他为什么跑,扁鹊说:“皮肤纹理间的病,是烫熨的能力所能达到的;肌肉和肌肤之间的病,是针石的能力所能达到的;肠胃的病,是药剂的能力所能达到的;病到了骨髓里,那是管辖命的神的事情了,医生是没有办法的。蔡桓公的病现在已到了骨髓,因此我就不再请求给他治病了。”过了五天,蔡桓公身体疼痛,派人去寻找扁鹊,扁鹊已经逃到秦国去了。蔡桓公后来就不治而亡了。“治未病”的概念最早出现于《黄帝内经 》,在《素问·四气调神大论》中提出:“是故圣人不治已病治未病,不治已乱治未乱,此之谓也。夫病已成而后药之,乱已成而后治之,譬犹渴而穿井,斗而铸锥,不亦晚乎!”对于IT运维服务而言“治未病”就是主动服务,“治已病”就是受理服务。

3.3.1 主动服务

主动服务是服务者主动为用户提供一系列运维服务,其目的是为系统提供防患于未然的维护保养服务,使得系统长期处于一个健康稳定的状态。主动服务是确保信息化系统安全、高效、平稳运作的有效手段。主动服务还可以让用户获得更好的服务体验,更好地了解系统的运行状况和未来需要配备的备机及备件资源等,从而使用户对服务者产生信赖感。主动服务的形式包括:向用户提供服务计划、对IT系统定期巡检、设计必要的应急预案等。主动服务的工作内容包括:远程监控、现场巡检、技术培训、服务报告、问卷调查等。主动服务完成的效果可以从策略制定、计划实施、服务评价三个方面进行评价。

能够做好主动服务的IT服务者通常是条理性好、目的性强、对IT系统的各子系统了解比较清晰的人。他们会用心地研究IT服务的内容,编制好系统定期养护的计划。

3.3.2 受理服务

受理服务是用户在发生故障时向运维服务者提出服务需求并获得运维服务的过程,其目的是在信息化系统意外发生故障时得到快速有效的解决,从而减小对业务的影响。受理服务包括受理各类用户电话请求(故障请求、服务请求、咨询请求等)、远程请求和现场服务请求。受理服务标准包含三方面:受理服务分类标准、受理服务处理规范、受理服务效率要求。这些工作将由服务提供商和用户共同确认,双方彼此都接受与认可,作为日后执行受理服务的目标与要求。

服务提供商的资源是有限的,而用户的需求依据不同的服务类型是有轻重缓急之分的,如何将有限的资源分配给不同类型事件,需要对事件依据一定的策略进行分级,这就形成了受理服务分类标准。在分类标准的基础上,针对不同类型的事件应有相应的处理规范与子流程,以确保资源得到合理分配,这就形成了受理服务处理规范。而每一事件的处理都有一个完成目标,比如目标恢复时间与目标解决时间,将这些都详细地一一约定出来,这就形成了受理服务效率要求。这三个部分是有机的整体,也是确保受理服务能够贴近用户需求的必要保障。

1.受理服务分类标准

对于用户提出的各类请求,即故障、服务、咨询及变更等请求(统称为“受理服务事件”),我们将对其提供的服务称为受理服务,依据服务提供商在有限资源下,如何最大限度地满足用户需求、提升用户满意度,我们将受理服务按重要性来进行划分,重要性主要依据于两个维度——紧急度与影响度——来判断,详见图3.2。按照受理服务的重要性可以将服务划分为若干级(企业可根据自身实际情况划分等级,推荐为7级),不同级别的受理服务处理的流程与方式也有所不同,因此分类的情况应先取得用户的认可。▲图3.2 受理服务的分类

2.受理服务处理规范

受理服务处理规范包括响应时间要求、电话作业规范、事件处理流程三部分,其中:响应时间要求是针对用户拨入电话的响应速度,将用户的等待时间限定在一定范围内;电话作业规范主要约定了电话用语,以使用户感到整个受理服务过程是热情、专业、规范的;事件处理流程规定了事件从受理开始到受理结束应经历的过程,以确保每一事件的服务质量。

3.受理服务效率要求

受理服务的效率要求包括目标恢复时间要求与目标解决时间要求,依据受理服务分类与事件类型确定了每一类、每一级事件的目标恢复时间与目标解决时间。

能够做好受理服务的IT服务者通常是在平时注意积累与IT运维服务相关知识并且学以致用的人,所以他们在遇到IT故障时可以从容不迫地解决系统的故障,同时还能处理好用户的情绪。

3.3.3 服务的平衡

好的IT运维服务能为IT系统提供全方位的维护保养,IT运维专家能够把IT技术和IT服务当作一个有机的整体,为IT系统安全、高效、平稳的运作而保驾护航。我们将IT运维服务比作保健医生,那么保健医生既要能够“治未病”,也能够“治已病”。在运维服务工作中,主动服务相当于为IT系统“治未病”,受理服务相当于为IT系统“治已病”。这两项服务工作都要做,并且要做好!那么主动服务和受理服务在实际工作中的占比应该是多少呢?这需要根据每个企业的实际情况和用户对IT系统维护的需求而定。

在现实情况中,我们遇到很多主动服务和受理服务占比不合理的例子。比如当企业的IT系统处在建设期刚结束、运维期刚开始之际,运维人员没有提前在系统建设期做好准备,没有及时介入到系统运行的保障当中,那么就容易出现手忙脚乱的局面,疲于应付受理服务而无暇顾及主动服务。要避免这样的情况发生,最好在系统规划时期对IT系统的运维需求进行调研,并对IT系统的运维指标进行预先规划。规划的主要内容包括运维服务工作量的测算,运维服务中涉及的运维范围,运维服务中涉及的各子系统的技术资料,以及运维期预测产生的资源需求等。一旦在系统规划期对运维服务进行了同期规划,那么在系统建设期能够及时考虑运维服务的具体需求必然顺理成章。当系统建设期进入后期,运维服务团队及时介入到建设期的收尾工作中,将有利于IT系统平稳顺畅地过渡到运维服务期。由于提前介入,运维服务团队可以有效地开展主动服务工作,切实起到为系统保驾护航的积极作用。进入运维期,按照主动服务的工作内容(主动服务的工作内容包括:远程监控、现场巡检、技术培训、服务报告、问卷调查等)与用户进行沟通确定当期重点需要执行的主动服务项目,将主动服务工作落实到位。

主动服务虽然能够最大限度地防患未然,但不能保证系统不出现意外的故障。比如,系统设备由于使用年限的问题,出现自然老化的现象,系统设备因此产生故障,这就需要我们在受理服务工作上提供必要的保障,确保故障出现时能够快速响应用户需求,及时恢复服务。因此受理服务的工作量和工作质量也是衡量运维服务是否达到优良的重要指标。因为主动服务和受理服务的平衡是用户满意不可或缺的两项工作。这就好比武侠小说中的双剑合璧,所向披靡,如图3.3所示。▲图3.3 掌握服务平衡

3.4 落实整体运维

IT运维的第一件要事是按照IT运维服务的原则做事,第二件要事是将这些原则应用到IT运维服务工作当中,第三件要事是将运维落实到整个技术系统的每个环节中。为了方便读者理解,我们将常见的系统抽象为四个子系统来一一介绍,它们分别是软件支撑系统、应用系统、计算机硬件设备和机房及环境。

3.4.1 软件支撑系统运维

软件支撑系统是指为应用软件运行条件的软件环境包括操作系统、编译程序 、数据库管理系统 、中间件、各种高级语言等。如:针对信息系统服务器上部署的操作系统(如Windows、AIX、LINUX、HP)、数据库(如DB2、Oracle、SQL Server)、中间件(如WebSphere)、数据传输软件(如MQ)等,主要运维工作是提供日常例行检查、故障排除、系统软件升级、定期巡检、数据库性能调优、系统与中间件部署、系统软件维护培训等运维服务。

3.4.2 应用系统的运维

应用系统是指为特定用途所开发并可在生产环境执行的一个或多个应用程序,以及和程序一起产生的数据信息。

应用系统运维主要包括日常性维护、纠错性维护、适应性维护、完善性维护、操作性指导和技术培训、数据完整性维护及数据分析等。日常性维护:信息系统软件运行状态监控、日常检查、故障诊断与排除、日志管理、定期备份、垃圾信息清理、技术支持等日常性工作。纠错性维护:修正信息系统可能存在的软件缺陷和错误以及其他未曾预见的错误等。适应性维护:适应硬件环境和系统软件的变化而进行的性能检测调优、系统优化、配置变更等局部性修改。完善性维护:为扩充功能和改善性能而进行的一般性修改。操作性指导:为用户正常开展业务而提供的操作指导或帮助,指导用户按运行要求开展业务,并解答用户提出的各类咨询。技术培训:定期组织行业用户进行与信息系统应用操作与维护相关的技术培训,提升用户操作与维护技能。数据完整性维护及数据分析:应用系统安全性维护(安全保障的设备或系统软件,包括防火墙、入侵防范系统、安全审计系统、防病毒系统、终端安全管理系统等),信息内容服务型维护(包括信息采集、整理、编辑、制作、发布、挖掘、分析和安全管理等)。一般来讲,整个运维工作的核心是应用系统的维护,也是最难的部分,特别是对第三方运维商来说。

3.4.3 计算机硬件设备的运维

计算机硬件设备是指计算机系统中由电子、机械和光电元件等组成的各种物理装置的总称。这些物理装置按系统结构的要求构成一个有机整体为计算机软件运行提供物质基础。简言之,计算机硬件的功能是输入并存储程序和数据,以及执行程序把数据加工成可以利用的形式。从外观上来看,微机由主机箱和外部设备组成。主机箱内主要包括CPU、内存、主板、硬盘驱动器、光盘驱动器、各种扩展卡、连接线、电源等;外部设备包括鼠标、键盘、显示器、音箱等,这些设备通过接口和连接线与主机相连。

计算机硬件设备的运维包括针对PC电脑、平板电脑、服务器、存储设备、网络交换机以及其他计算机控制设备提供定期巡检、定期保养、故障诊断与排除以及备件的更换等运维服务。

3.4.4 机房及环境的运维

计算机机房普遍指的是电信、网通、移动、双线、电力以及政府或者企业等存放服务器、为用户以及员工提供IT服务的地方。

机房环境监测系统是一个综合计算机网络技术、数据库技术、通信技术、自动控制技术、新型传感技术等构成的计算机网络,提供一种以计算机技术为基础、基于集中管理监控模式的自动化、智能化和高效率的技术手段,系统监控对象主要是机房动力和环境设备等设备(如配电、UPS、空调、温湿度、漏水、烟雾、视频、门禁、防雷、消防系统等)。

机房及环境的运维主要针对机房中比较重要的设施(如配电、UPS、空调、温湿度、防水、烟雾、视频、门禁、防雷、消防系统等)进行全天候不间断的监控与预防性维护。

3.5 贯穿始终的服务流程

IT运维的第四件要事是将服务流程贯穿于IT运维过程的始终。IT运维服务流程的核心流程包括:事件流程、问题流程、配置管理流程、变更流程、发布流程,如图3.4所示。

3.5.1 事件流程

事件是指IT系统运行中,发生的任何不符合标准操作且已经引起或可能引起服务中断和服务质量下降的IT系统故障。事件处理流程涉及许多IT部门和IT方面的专家。首先是服务热线,服务热线(一线)作为事件的受理责任人,确保首问负责制的流程在整个IT运维服务流程中贯穿实施。当服务热线不能解决发生的事故时,就将其转移给二线技术支持小组。二线技术支持人员首先需要提供临时性的解决办法或补救措施,以尽可能快地恢复服务,避免影响用户正常业务的开展。然后二线技术支持人员分析事件发生的原因,制定解决方案以彻底恢复服务和业务的正常运行。▲图3.4 贯穿始终的服务流程

3.5.2 问题流程

问题是指存在某个未知的潜在原因导致一起或多起事件发生。问题经常是分析多个呈现相同症状的事件后发现的某种状态。问题也可以从单个重要的事件中确认一项错误。这种错误产生的原因虽然未知,但其产生的影响却可能非常严重。问题流程负责解决IT运维运营过程中遇到的所有问题。问题流程包括问题管理和问题控制,其目标在于将由于IT基础架构的错误而导致的问题和事件对业务产生的负面影响减小到最低,以防止与这些错误有关的事件再次发生。为了实现这个目标,问题流程调查分析事件的根本原因后采取有关行动改进或纠正这种状态。

3.5.3 配置管理流程

配置管理是指识别和确认IT系统的配置项,记录和报告配置项状态和变更请求,检验配置项的正确性和完整性等。配置管理流程就是有关如何管理和及时提供准确可靠的IT基础架构配置信息等活动构成的流程。配置管理不仅仅提供单个IT组件的信息,它还提供有关各个配置项之间关系的信息。这些信息是对IT系统故障影响程度分析的基础。配置管理流程负责记录有关IT基础架构的变更情况,监控IT组件状态,确保服务管理人员可以清楚地了解各个版本配置项的信息。

3.5.4 变更流程

变更是指在维护过程中对IT系统或服务所做的各种改变,包括增补、移除和其他修改。变更流程包括变更处理和变更控制,该流程旨在将有关变更对服务级别承诺中的运维服务绩效指标达成而产生的冲突和偏离减小到最低程度。变更流程的实施以变更请求、配置管理数据库和变更实施进度表为基础,经过登记变更请求、筛选和接受变更请求、确定优先级和归类变更请求、制定变更实施计划、实施变更、评价和终止变更、处理紧急变更和变更活动之后,产生变更管理报告等管理信息。

3.5.5 发布流程

发布流程是对经过测试后导入实际应用的新增或修改配置项进行分发和宣传的管理流程。发布流程涉及到已经定义的IT服务的变更,这些变更通过对一些新应用软件与升级硬件或新硬件的结合使用来完成。发布流程和变更流程、配置管理流程是紧密结合的,当新发布引起IT基础架构的变更时,配置管理数据可进行实时的更新,同时发布的内容也要保存到最终软件库中。第4章 有目的、有计划地做事

前面介绍了什么是IT运维服务,下面几章将介绍IT运维服务该怎么做。在聊怎么做之前,想起几句流行的告白,和准备入行IT服务事业的朋友共勉。当你的才华还撑不起你的野心时就应该静下心来学习……当你的能力还驾驭不了你的目标时就应该沉下心来历练……梦想不是浮躁而是沉淀和积累……只有拼出来的美丽没有等出来的辉煌……机会永远是留给最渴望的那个人……学会与内心深处的你对话问问自己想要怎样的人生……静心学习、耐心沉淀送给所有的朋友和我自己!

好,言归正传。

IT运维服务是一门科学,是有规律可循的,实践证明80%的突发事件都是事先有预兆或人为失误造成的,所以从这个意义上讲,IT服务的主要工作是要预防突发事件的产生和防止人为操作失误。根据这个规律我们有目的有计划地去做事就能把事情做好。总之,做到预防为主、计划先行是非常重要的。

预防为主是指IT服务商通过加强主动服务,最大限度减少突发事件对企业业务造成的影响。IT服务商既是“消防队”,更是“预防队”,日常以预防为主,通过主动预防关键时刻能应急,随时向企业用户提供有力的保障。计划先行是指在整个运维服务过程中,计划是整个工作流程的核心。按照计划先行的原则,将依据本年度工作计划制订分项工作计划,比如巡检计划、监控计划、保养计划、培训计划等,也可以按照时间维度执行计划,比如年度工作计划、月度工作计划等,并按计划进行实施和保障。但所有的计划都有其目的或目标,我们在制订计划前必须搞清目标。

4.1 怎样找目标

怎样找出目标呢?我们认为IT运维服务的总体目标有三个关键:一是确保IT资源(软件和硬件)的价值在业务活动中得到充分的发挥;二是确保IT信息数据的安全系数与企业的安全等级要求相匹配;三是确保IT系统的运行效率满足主营业务的运营要求。从宏观讲,明确如何围绕业务配置好IT资源、信息安全和系统效率,多用3W(What、Why、How)问自己,就能够找到正确的工作目标。

具体到日常工作中,怎样找目标呢?我们把事情分成三个层面,即客户层面的事情、公司层面的事情和日常琐事。客户层面的事情的目的性是指IT服务者能够确实有效地满足客户的业务目标要求,切实达到客户想要的效果,说得再具体点就是一看服务合同的范围与内容是否满足用户的要求,这是得到法律保护的服务目标;二看客户有没

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载