在IT行业,运维人常常自我调侃“赚着5k的月薪,操着5千万的心,名下挂着5亿的资产”。机房的暖通、网络、综合布线,系统的监控告警、故障响应等一大堆繁杂琐碎的工作,充斥着运维人的日常。与开发和产品相比,运维更像是一个后勤角色,这一行业也长期处于公众视野的暗处。随着云计算、大数据、人工智能等技术的兴起,运维行业也迎来了新的技术变革。2016年,Gartner提出智能运维AIOps的概念,旨在使用大数据、机器学习等方法来提升运维能力,其目的是进一步降低自动化运维中人为干扰,最终实现运维无人化、自动化。Gartner预测,到2020年,AIOps的采用率将会达到50%。一种新的工作模式出现,必然会对原来稳定的工作模式进行改变,改变通常会受到新挑战,所以新工作模式需要能解决当前运维工作中遇到的难题而出现。以金融行业的业务连续性管理为例,目标是提高公司的风险防范能力、有效地减少非计划的业务中断、防范运维操作风险,对于首次出现的未知异常能够利用工具量化分析并快速定位,确保在重大灾难性事件发生后能按计划恢复业务连续性。在面对当前复杂的技术架构、不断引入的创新技术之下,传统运维团队原来被动救火式、问题驱动式的经验运维,已经很难实现业务连续性的保障目标。金融企业运行安全稳定,需要运维数据赋予数据洞察、辅助决策、跟踪执行的能力,提升复杂环境下的运维管理能力。例如:实时获得“发生了什么”?关联分析“为什么会发生”?智能预测“将会发生什么”?决策判断“采取什么措施”?自动执行“如何快速执行”?实时感知“工作执行的效果”?AIOps就是为了解决上述问题而生,其价值在于通过机器学习来进行运维数据的挖掘,帮助人甚至代替人进行更有效和快速的决策,从而提升业务系统的SLA,减小故障处理的时间等,带来业务的价值,并最终实现真正意义上的无人值守运维。如Gartner定义中提出,AIOps应用需要利用大数据,现代机器学习技术和其他高级分析技术,是一种相对较高门槛的工作模式。为了更好地落地AIOps,运维组织需要深刻地理解AIOps的内涵,重点实现思路分为以下几个方面:数据为先,AIOps需要快速生产高质量数据的能力。“快速”的思路可以以“中台”思路进行建设,建立统一的数据采控、实时与批量的数据处理能力、与运维相匹配的运维算法、存储方案、主数据、指标模型等;“高质量”则从将分散数据统一、在线后形成“活数据”,以及数据质量上的治理。从技术实现看,具备实时“采、存、算、管、用”的数据流动全生命周期管理的能力。数据存储是根据数据类型、数据应用特点对数据进行归档、整理、传输、共享;数据计算包括数据标注、清洗、建模、加工、标准化、质量监控,以及为了获得数据洞察、决策、执行而对数据进行分析统计;数据管理重点围绕数据治理,包括运维数据标准、主数据、元数据、数据质量、数据安全的管理;数据使用重点围绕数据服务角度涉及的数据目录、服务门户,以及配套的数据服务化能力。算法大脑,适配、引入特定场景下运维算法,构建算法模型体系。机器学习尤其是深度学习的大规模应用,推动了人工智能的快速发展。随着国内TO B市场的火爆,AIOps上人工智能研究及应用正处于爆发期,引入AI技术的算法有三点优势:一是工作稳定性高,人工智能可不知疲倦地进行工作,在规律性问题的分析时不受环境影响。二是降低操作风险,利用人工智能取代传统人工经验操作,可更好地避免操作风险和道德风险。三是有效提高决策效率,人工智能可以快速地对大数据进行筛选和分析,帮助人们更高效率地决策。场景驱动,以痛点、价值期望切入点,用智能赋能运维场景,落地智能运维能力。AIOps从词来看,应该包括“AI+Ops”,是用AI赋能运维场景的模式。有了上面提到的数据底座与算法大脑,下一步是AIOps运维模式的落地,主要将围绕场景的落地:一种是利用算法赋能已有的运维场景,另一种是算法实现原来无法实现的运维场景。前者是一个快速见效的模式,后者是应对变化而做出的变化。运维知识描述了大量运维领域的相关对象定义、技巧,以及排故/解决经验的信息。通过构建运维知识图谱,利用自然语义等算法技术,从海量数据中自动挖掘各类运维主体,对其特性进行画像和结构化描述,动态记录运维主体之间的关联关系,可以帮助IT人员实现故障链传播分析、根因定位、智能的变更影响分析、故障预测等多种AIOps场景。值得注意的是,软件的一些“算法逻辑”不代表真正的AIOps,判断是否是真正AIOps的关键点在于:是否能自动从数据学习中总结规律,并利用规律对当前的环境给予决策建议。AIOps的概念非常美好,应用空间也相当广阔。除了互联网,在金融、物联网、医疗、通信、工业等领域,均表现出对智能运维的强烈需求。数据显示,2020年中国IT智能运维市场规模为560.8亿元,年复合增速为20.1%,预计未来以15.9%复合增速扩张,2025年市场规模达1093.5亿元,表现出较大的市场潜力。目前,我国政府部门也陆续出台《推动企业上云实施指南(2018-2020年)》《国家新一代人工智能标准体系建设指南》等一系列政策,推动智能运维领域的发展。尽管国内运维行业在2016年前后迎来了一波融资热,但目前运维行业整体还比较落后。一方面,技术有限,在线系统本身具有规模性和复杂性,是需要长期投入的研究领域;另一方面,智能运维需要高质量的标注数据,但运维数据积累明显不足,至少还需积累3-5年。事实上,产品不落地、善于融资、估值虚高,是一些智能运维公司给业内人留下的印象。目前国内大部分公司在技术层面的原创力都还不够强,很多都是利用国外的开源代码,有的公司甚至将几个开源产品拼凑在一起,内部之间仍是相互独立、割裂的,没有彼此打通,以至于最后的方案也不怎么好用,需要大量的人力运维支持。因此,尽管随着技术的发展,运维行业已初步进入自动化、智能化初级阶段,但现阶段运维仍旧是一个“费人”的行业。为了规范国内智能运维领域的发展,中国信息通信研究院发布了《智能化运维AIOps能力成熟度模型》系列标准。在此内容基础上,由中国信通院牵头的国内外首个智能运维(AIOps)国际标准在国际电信联盟第十三研究组ITU-T SG13也已成功立项。在《智能化运维AIOps能力成熟度模型》中,面向智能运维整体能力建设,规定了对IT系统或平台进行智能化运维的参考框架及分级评估方法,提出了关于企业建设智能化运维能力的实施路径,能够指导国内互联网和传统行业在智能运维方向的相关实践落地。“建立一个可供数百万人每天使用,但只需一名兼职人员管理和维护的系统。”这是吉姆·格雷(Jim Gray)在1999年获得图灵奖时对无故障服务器系统的畅想。如今,随着AIOps的开发,我们比以往任何时候都更接近这一愿景,并有望超越这一愿景。尽管AIOps仍处于起步阶段,但智能化给运维领域带来效率上的质变已肉眼可见。
|