ITIL 2011

COOLDREAMjcai0 2019-11-15

展开全文

要做一个IT运维管理的项目，客户提到了ITIL（IT Infrastructure Library），所以谈需求之前我研究了一下ITIL，发现东西比较多，但是里面的服务运维部分是项目一期所需要的，那我就把我这部分的学习笔记贴一下。

ITSM，ITIL

有个术语叫做ITSM（IT Service Management）IT服务管理，简单的来说它就是指对企业IT系统的规划、研发、实施和运营的管理，我认为它就是一个概念。

而ITIL（IT Infrastructure Library）IT基础架构库，它就是适用于ITSM的一个框架，一套最佳实践。

ITIL®是英国AXELOS有限公司的注册商标。

我今天介绍的内容是基于ITIL 2011版本的。

ITIL分为5个阶段或叫生命周期：

战略阶段（Service Strategy)；
设计阶段（Service Design)；
转换阶段（Service Transition)；
运营阶段（Service Operation)；
改进阶段（Service Improvement)；

看下图：

我要介绍的就是左下角服务运营（Service Operation）阶段的5个管理流程。而服务运营阶段的职能（Function），我在这里不介绍，因为我有的地方还不太清楚。

事件管理（Event Management）

作为IT服务的提供商，我们需要很好的理解和利用事件管理。

Event是有生命周期的，Event也需要在整个生命周期内被管理。这将是未来实现运维监控的基础。这是因为事件管理包括了所有诸如事件检测、事件分析、事件响应等等内容，这里所说的既包含普通的运维操作也包括警告和异常等，所以说它是自动化运维管理的基础。

在ITIL里事件（Event）指的是什么？

有时候可以这样认为：“所有的信息都很重要”。

简单的说呢，事件就是对IT服务管理或其它配置项管理很重要/有意义的那些状态的改变，就是一些状态的改变，例如升高或者下降等。

例如硬盘使用率从35%升到了45%。

基本上，事件就是IT运维人员需要做一些处理，或者至少记录（日志）一下的东西。

警报（Alert）

警报是由事件管理流程创建并管理的。

事件可能会产生警告，警报就是某个状态达到阈值后发出的通知。例如状态的改变，或服务发生了一些失败（Failure）。

例如，我在所有PC上部署了一个Windows启动时应自动运行的软件，部署后大部分的PC上都可以自动运行，但是有些PC上的软件无法自动运行。所以我让IT运维人员设置了警告，如果软件没有自动运行，这个警告就会被触发，同时也可以做一些应急处理工作。也可以给IT运维人员的电脑屏幕弹出警告信息。这些都属于事件管理的范围。

事件管理的目标

事件管理的目标都是很直接的：

检测所有对于配置项管理/IT服务有意义的状态的变化。
为事件决定具体的响应措施，并确定这些动作都和相应的职能组沟通过。
可以触发或提供切入点到其它运维管理流程。
提供比较实际效果和设计标准的比较方法。
为服务保障，报告和服务改进提供基础。

事件管理的范围

它支持任何需要被控制并可以自动化的服务管理，例如配置项、环境条件（例如烟火探测器）、软件许可的监控、入侵检测、服务器性能监测等等。

针对这里提到的监视（Monitoring），它的范围更广。而事件管理是被监控内容的一个子集，事件管理更关注于那些对提供服务和管理配置项有意义的事件。

事件的类型

从测试的角度来看，事件又分为三种类型，每一种类型对服务提供商又具有不同等级的重要性/意义：

信息性事件，就像趋势和分析等。例如xxx用户在周二使用了财务软件，电子邮件被阅读了，数据备份完毕等等类似的事件。
警告（Warning），就是早期的警告信息，它可以防止或最小化业务影响，或对用户的影响。例如服务器CPU的使用率距离阈值只有5%的距离了。
异常（Exception），意味着不好的事情已经发生了，并需要后续处理措施。例如CPU的使用率已经超过了阈值，DevOps在他们的电脑上安装了监控，所以他们可以进行后续处理。

警告和异常的区别？

这是服务商根据具体情况自己定的。