分享

数据中心基础设施管理及运行

 yi321yi 2016-12-17

  摘要:随着社会信息化程度的快速提高,数据中心的规模越来越大,系统愈加复杂,管理及运行面临着前所未有的挑战。Uptime Institute 认为数据中心拓扑等级越高,其管理及运行的难度也越大。同时,Uptime Institute收集整理大量的数据中心异常事件报告,发现绝大多数故障往往源于人为的操作失误。因此,管理及运行越来越受到数据中心管理者的重视。 本文试图从数据中心管理者的角度探索接手管理一个新的数据中心之后的工作。 上期我们介绍了确定管理目标、测试与验证及管理及运维团队的人员配置及组织结构等内容,本期将围绕设备的维护、运行维护流程、预防性维护工作、维护档案、故障的处理等方面展开。 

  标签:数据中心,建设  

  随着社会信息化程度的快速提高,数据中心的规模越来越大,系统愈加复杂,管理及运行面临着前所未有的挑战。Uptime Institute 认为数据中心拓扑等级越高,其管理及运行的难度也越大。同时,Uptime Institute收集整理大量的数据中心异常事件报告,发现绝大多数故障往往源于人为的操作失误。因此,管理及运行越来越受到数据中心管理者的重视。 本文试图从数据中心管理者的角度探索接手管理一个新的数据中心之后的工作。 上期我们介绍了确定管理目标、测试与验证及管理及运维团队的人员配置及组织结构等内容,本期将围绕设备的维护、运行维护流程、预防性维护工作、维护档案、故障的处理等方面展开。

  设备的维护

  设备是数据中心基础设施的组成子集,对设备的维护是保障基础设施稳定运行的重要措施。设备维护的工作主要包括维护流程的制定、预防性维护工作的执行、维护档案的管理和故障的处理几方面内容。

  运行维护流程

  运行维护流程是设备维护工作的指导和依据,数据中心管理者首先要保证各维护流程的正确性、完整性和全面性,同时通过反复的培训和演练使运维人员对流程充分熟悉和理解,并在实际工作中严格执行。

  运行维护流程通常包括三个主要类别:标准操作流程(SOP)、维护操作流程(MOP)、应急操作流程(EOP)。标准操作流程通俗地说就是设备的开机、关机操作步骤,对于数据中心的任何一个型号的设备都必须有SOP。这里值得一提的是,同类型的设备可能有不同的型号,比如空调可能包括制冷量60KW和80KW两种,对于不同型号的设备开机、关机的操作步骤可能不同,所以SOP应该按照型号的不同分别编写。维护操作流程包括了设备的维护、保养、预防性巡检等流程内容,一般情况下MOP会包含SOP的条目,因为不论是维护、保养还是巡检,常常需要进行开机、关机的操作。对于主设备,每个型号都要有SOP和MOP;辅助设备(阀门等)可以分类定义,每类有单独的SOP和MOP。每个数据中心都至少应该有7~10个应急操作流程(EOP),主要呈现在断电、空调失效、火灾、防汛、安防、信息安全等方面。当数据中心有异常情况发生时,往往是多系统、多专业联动反应,所以在平时的培训和演练中,需要多个应急预案交叉启动,为应对实际中可能出现的场景做充足准备。

  预防性维护工作

  预防性维护工作是排查设备故障隐患、降低故障率的有效措施,从Uptime Institute2013年数据中心异常事件报告(AIR Report)的统计数据可以看出,有30%左右的异常事件被预防性维护工作拯救回来,从而避免其发展成为真正的故障。数据中心的管理者应根据设备厂商提供的维护建议提前制定维护工作计划,指派运维人员严格按照维护流程及时完成维护工作,做好工作记录并归档保存。也可以与设备供应商签订服务合同,注明工作范围、巡检计划和对关键设备的反应时间,由供应商来主要完成预防性维护工作。

  维护档案

  维护档案用来跟踪设备维护工作的状态,可以是纸质的,也可以是电子版,其主要内容除了记录设备维护的性能数据和工作内容之外,还应包括所有安装设备的清单、完成维护工作需要的特殊工具和备件清单、维护工具的校准记录、关键备件的库存和订货途径等方面内容。对于维护档案应该分类、分时间段妥善保管,保证设备维护工作的可追溯性。

  故障的处理

  数据中心发生故障是运维人员最不愿意看到的,但故障一旦发生就必须马上处理,故障处理是否及时妥当,是将故障对数据中心影响控制在最小范围内的关键因素;是否能从本次故障处理过程中吸取经验教训,避免以后再发生类似故障,也是运维人员的工作重点之一。对于一个数据中心来说,可以按照故障造成后果的严重性来划分等级,不同等级的故障要明确处理流程和参与人员,故障排除、处理结束后要关闭该项工作,使之成为一个闭环,最后还应做好故障处理的文字记录,归档保存。

  下表是不同C级数据中心对设备维护方面的工作要求。 

soso_tc_slider_img

  关于《数据中心基础设施管理及运行》

  《数据中心基础设施管理及运行》的创作来源于作者对客户项目的丰富经验和行业的深刻理解,作者试图从数据中心管理者的角度探索接手管理一个新的数据中心之后的工作。书中通过对管理及运维团队的人员配置及组织结构、设备的维护、培训及协调管理四个方面的详细讲解,希望帮助管理者建立更加有效的运维体系,从而保证数据中心的可靠性。

  本期节选了数据中心设备维护的内容,下期将刊登培训、协调管理等更多精彩内容。 

soso_tc_slider_img

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多