数据中心行业,进入高速发展期,尤其是5G、大数据、人工智能等新技术的应用,使得对数据的需求爆发式增长,而数据中心作为数据承载的基础设施,成为了数字经济的重要发展领域。 数据中心的运维管理是综合性的管理,结合了各类管理方法论,国际和国内的运维标准,包含了ITIL,BCM,PMP,Uptime M&O,ISO等内容的管理体系。 随着数据中心的兴起,基础设施规模越来越庞大,单纯依靠人工作业模式难以支撑新型数据中心的正常运转。
数据中心运维管理的几个发展阶段: 1)被动阶段,完全依赖个人和团队经验,故障发生时才采取相应补救措施; 2)规范阶段,有一些标准的流程,例如制定维护标准,计划和巡检制度等,但自动化程度低; 3)成熟阶段,出现DCIM监控系统等辅助手段,部分内容实行自动化完成,运维流程趋于成熟,运维效率提高,同时引进各种运维标准,重视团队的运维体系建设,强化制度,流程和培训等机制,保证运维团队持续发展,降低核心人员流动造成的影响; 4)自动化阶段,通过信息技术的发展,引进智能管理平台,实现数字化管理,通过大数据持续优化运维流程,运维效率大幅提升,机器人工智能等技术的引进,大幅降低人的作用,例如巡检机器人的使用等 综合智能运维管理平台,不仅仅包含动环监控系统DCIM,还包含物理安全管理、基础设施可用性管理、机房容量管理、供应商管理等,显然基础设施的可用性管理是基础设施运维最核心的工作,使得日常运维工作都通过智能平台实施,如日常巡检、报警信息,设备维修和维护、风险管理、变更管理,事件管理,人员培训,应急响应和演练等。 数据中心运维的发展必然会结合越来越多先进的科学技术手段,但数据中心运维质量,却是客户始终重点关注,为达到安全持续运营,高标准运维认证,例如Uptime M&O认证,CQC认证等,仍然是评判数据中心运维质量的金标准;运维自动化程度会不断增强,但自动化失效仍然会发生,因此对于自动化失效时的应对策略,仍然是运维管理者深入思考的问题,从某种程度上讲,人的因素仍然在发挥重要作用,因此核心人员的培训变得更加重要,在大幅减少运维人员的情况下,更加强调精兵管理策略。 |
|