要做一个IT运维管理的项目,客户提到了ITIL(IT Infrastructure Library),所以谈需求之前我研究了一下ITIL,发现东西比较多,但是里面的服务运维部分是项目一期所需要的,那我就把我这部分的学习笔记贴一下。 ITSM,ITIL有个术语叫做ITSM(IT Service Management)IT服务管理,简单的来说它就是指对企业IT系统的规划、研发、实施和运营的管理,我认为它就是一个概念。 而ITIL(IT Infrastructure Library)IT基础架构库,它就是适用于ITSM的一个框架,一套最佳实践。 ITIL®是英国AXELOS有限公司的注册商标。 我今天介绍的内容是基于ITIL 2011版本的。 ITIL分为5个阶段或叫生命周期:
看下图: 我要介绍的就是左下角服务运营(Service Operation)阶段的5个管理流程。而服务运营阶段的职能(Function),我在这里不介绍,因为我有的地方还不太清楚。 事件管理(Event Management)作为IT服务的提供商,我们需要很好的理解和利用事件管理。 Event是有生命周期的,Event也需要在整个生命周期内被管理。这将是未来实现运维监控的基础。这是因为事件管理包括了所有诸如事件检测、事件分析、事件响应等等内容,这里所说的既包含普通的运维操作也包括警告和异常等,所以说它是自动化运维管理的基础。 在ITIL里事件(Event)指的是什么?有时候可以这样认为:“所有的信息都很重要”。 简单的说呢,事件就是对IT服务管理或其它配置项管理很重要/有意义的那些状态的改变,就是一些状态的改变,例如升高或者下降等。 例如硬盘使用率从35%升到了45%。 基本上,事件就是IT运维人员需要做一些处理,或者至少记录(日志)一下的东西。 警报(Alert)警报是由事件管理流程创建并管理的。 事件可能会产生警告,警报就是某个状态达到阈值后发出的通知。例如状态的改变,或服务发生了一些失败(Failure)。 例如,我在所有PC上部署了一个Windows启动时应自动运行的软件,部署后大部分的PC上都可以自动运行,但是有些PC上的软件无法自动运行。所以我让IT运维人员设置了警告,如果软件没有自动运行,这个警告就会被触发,同时也可以做一些应急处理工作。也可以给IT运维人员的电脑屏幕弹出警告信息。这些都属于事件管理的范围。 事件管理的目标事件管理的目标都是很直接的:
事件管理的范围它支持任何需要被控制并可以自动化的服务管理,例如配置项、环境条件(例如烟火探测器)、软件许可的监控、入侵检测、服务器性能监测等等。 针对这里提到的监视(Monitoring),它的范围更广。而事件管理是被监控内容的一个子集,事件管理更关注于那些对提供服务和管理配置项有意义的事件。 事件的类型从测试的角度来看,事件又分为三种类型,每一种类型对服务提供商又具有不同等级的重要性/意义:
警告和异常的区别? 这是服务商根据具体情况自己定的。 事故管理(Incident Management)无论你在设计服务和支持服务中预先准备的有多好,但是我们毕竟是人,肯定会发生意外。 事故管理的目标所以事故管理的目标就是:
事故(Incident)的定义事故(Incident)就是,IT服务计划外的中断,或IT服务质量的下降,或暂未对IT服务产生影响的失败配置项。 例如RAID里面一块损坏的硬盘,现在虽然可以正常运行,但是如果不把它换掉,那么未来总有一天会遇到麻烦。 事故管理的目标
事故管理的范围下面这些属于事故管理的范畴:
下面这些不属于事故管理的范畴:
如何处理事故处理事故需要一个模型:这需要在处理事故前就设计好,就是一套预定义的步骤,这些步骤都是业务和IT人员同意的,它们可以用来处理特定类型的事故。 时间表事故处理的步骤会涉及到谁来处理以及顺序问题。这就涉及到了时间表。 时间表可以表示特定事件应该发生的时间总量。 在事故管理里,时间表就表示了事故管理中每一个活动花费了多少时间来解决这个事故。 时间表需要遵循以下原则:
事故的状态追踪事故应该在全生命周期中被追踪。这有助于报告,事故升级,形成一个精确的精心安排的事件管理系统而不是杂乱无章的。 这个追踪的模型如下:
重大事故 Major Incident重大事故基本上时DEFCON 5,也就是所有事故分类里影响最大的那类。 实际上,因为重大事故太严重了,所以它经常会激活IT服务连续性计划。 重大事故会引起服务的长时间中断,通常也会造成经济上或用户满意度上的重大损失。 重大事故应该有单独的处理流程,和更短的时限。 重大事故还需要审查,以确保它被正确的处理。 事故管理的流程每个企业和组织用于处理事故的管理流程肯定是不一样的,但是ITIL确实提供了一个比较标准的框架或者叫模板。 下面是这个“较为标准”的框架的流程图: 整个流程可能从事件管理、帮助网页、电话、或电子邮件等发起。 首先需要识别事故,识别的方法就有很多种了,也许通过打电话给服务台就能识别出来,也许需要事故管理。 在识别的时候,我们就需要判断这到底是不是事故。 如果确实是事故的话,那么就进入下一步“记录事故(logging)”。所有的事故必须被记录,包括日期时间等必须都有,这一点对问题管理和变更管理都很有用。 然后就是给事故分类,这将有助于过滤服务请求,并确保事故可以基于事故的原因正确地进行升级。例如,这是服务器环境事故还是网络环境的事故。此外,分类也有助于设置优先级。 下一步就是事故优先级的设定,优先级要综合考虑影响程度和紧急性。例如对业务的影响程度有多大,多久能够恢复等等。 这时,你就需要确定一下这个事故是不是一个重大事故了。如果是重大事故的话,就需要进入重大事故的处理流程了。 否则的话,就需要做一些事故诊断工作了。诊断脚本、事件模型和已知错误记录将在这个阶段对您有帮助。 如果你能识别出一个已知的错误记录,那么就有可能有一个解决办法可以让服务快速的恢复。 在初步诊断后,也就可以弄清楚服务台是否能把服务给恢复了。如果服务台没能在时间限内找到解决办法,那么可能就需要事故升级处理了。 这里有两种事故升级类型,一个是职能性升级,也就是把事故转交给拥有更高专业水平的某个技术团队。例如从1级技术转到3级技术等等。 还有一种是层次性升级,这时你的主管就会介入了。有人曾把这种事故叫做超过工资等级的事故,所以需要通知主管/老板,让他们授权支出。而有时则是让主管决定由哪些团队来处理这个事故,或激活IT SCM计划(不知道是什么),它也需要对事故进行层次升级。 大部分时候你会调查并得出一些事故的诊断。 如果发现处理办法了,那就来到下一步解决和恢复。在这可能需要一些测试,看看服务是否已经恢复到达成共识的程度了。 然后就可以返回到服务台来关闭事故。 服务台会给用户打电话,并且询问客户,“这个解决办法是否能够让您满意?” 一旦得到了肯定的回答,那么这个事故的处理流程就结束了。 |
|
来自: COOLDREAMjcai0 > 《ITIL》