分享

高速公路智能运维平台

 guoxiongxin 2022-04-16

论文

作者:范文江1,吴俊辉2,史英杰1,孙世茂1(1.北京云星宇交通科技股份有限公司;2.北京市高速公路智能交通工程技术研究中心)

摘要:随着高速公路机电设备的成倍增长与收费系统的更新换代,对高速公路收费系统运维管理提出了更高要求,同时IT运维人员工作量与日俱增,IT运维面临着更大的挑战。为了提高运维效率,提升运维质量,降低运维成本,高速运维管理部门相继开展了自动化运维平台的研究与建设。本文对高速公路智能运维平台进行探究。

高速公路收费运营管理依赖IT系统的稳定性,因此高速公路运营单位迫切需要建立一个稳定、高效的智能运维管理平台,以实现IT系统和机电设备的正常运行。随着高速公路IT系统构架与IT系统基础环境的持续更新,大量新系统不断出现,如虚拟化管理平台、IMC网络管理平台、主机设备管理平台、机电运维系统平台等等,不能实现统一管理。这些系统的应用,虽然在一定程度上提升了机电运维的效率,但是伴随这些系统的使用,陆续出现了一些新的问题急需解决。一是系统独立运行,未做集中监控。高速公路IT运维人员需要监控各种系统,众多独立的系统所造成的信息孤岛,导致运维人员已经不能胜任如此大的运维工作量,无法满足高速公路复杂IT系统的管理要求。二是系统众多,人工运维风险大。高速公路IT运维人员每天对各种系统进行简单重复枯燥的工作,严重影响个人精力,易出现低级错误、人为风险。三是系统故障反复出现。高速公路IT运维人员对出现的系统故障临时解决,无法定位问题点,导致故障反复出现,无法复原当时系统情景,压力巨大。根据对以上痛点的分析和总结,开展运用免费开源技术建立智能运维平台的探究。

智能运维平台技术方案

智能运维平台按照设备事件管理、问题管理、变更管理等管理流程,以zabbix为基础实现监控与故障告警通知,结合Grafana与Zbxtable以B/S构建渲染界面,实现数据序列化导出与分析,实现设备运维管理的规范化、流程化。
智能运维平台可实现24小时不间断智能监控,设备超出预设的正常运行参数后及时告警,并对系统的运行状况进行智能感知和分析,根据历史监控数据的各类告警事件判断对系统运行的影响和对业务运行的影响,及时提示运维人员解决现有运行故障。报表平台还可联动运维平台实现历史数据监控,形成可查询、可记录、自动化、去纸质化的设备系统运行状态报表,为系统稳定运行提供重要保障。
(一)平台构架
平台构架分为平台数据采集和平台分析展现,可运维管理多种设备,如服务器、工作站、存储设备、交换机、防火墙、路由器等安全设备。数据采集通过收集各类设备系统运行信息,利用平台内置预告警模块和智能算法,将设备实时的运行状态记录;平台分析展现通过已存储记录的设备告警信息进行智能分析判断,根据运维知识库的运维规则采取相关介入措施,及时提示运维人员进行事件处置,确保设备设施安全运行。平台架构如表1所示。
表1 智能运维平台构架表
图片
平台数据采集:被监控主机系统使用Zabbix Agent客户端、网络设备使用SNMP、JAVA业务基于JMX监控,一些自定义监控使用python或shell脚本实现。整个监控具有监控数据采集高性能(数十万监控指标)、多系统(Windows、linux等)、多设备(主机、网络、存储、UPS等)、多应用(Java、WEB中间件、数据库等)的特点,可实现7*24小时全方位监控与分析,通过脚本可实现Zabbix Agent批量部署,通过自动化脚本完成大量基础工作,从而告别枯燥的重复工作,提高工作效率,减少人为错误。
平台分析展现:平台提供可视化的运行情况,其中包括通过折线图、柱状图、热点图等方式展示系统运行状态,展示各类关键指标的运行趋势,为运维分析提供决策依据,同时通过可视化方式进行监控指标设置和告警通知等功能配置。
(二)平台拓扑
高速公路智能运维平台在实际监控架构规划中,平台根据实际的业务网络环境、监控规模等分为两种主要的监控模式,分别是Zerver-Agent、Server-Proxy-Agent。Server-Agent模式为Zabbix Zerver端与被监控主机直接完成数据采集;Server-Proxy-Agent模式先通过Zabbix Proxy完成对被监控主机的数控数据采集,然后统一发送给Zabbix Zerver进行存储和展示。
平台的三个架构拓扑图如图1所示,其能更直观地图形化显示平台的架构情况,并可以通过架构信息快速实现问题的定位,也可以为之后的问题处理提供理论支持。
图片
图1 平台拓扑图
(三)平台功能
WEB大屏展示与报警:大屏通过直观的方式对整个收费系统IT运行情况进行7*24小时的全面、集中、综合监控展现。包括:TOP问题、系统整体负载监控、业务应用监控、存储设备监控、主机基本信息状态监控、网络监控、数据库系统监控、中间件监控。通过Zabbix的alertscripts脚本和MUTT与msmtp开源软件,实现邮件、短信功能。
实时监控:实时对网络设备、存储设备、安全设备、服务器、UPS供配电、数据库、业务系统等对象进行监控与信息收集,对指标进行自动收集、自动分析,并自动完成正确性判断,提供数据分析报表。
网络管理:对交换机、防火墙、路由器、安全审计、IP节点等网络及安全设备进行集中管理。通过ping、SNMP等协议能够快速搜索整个网络内的网络设备,生成真实物理拓扑图,展示采集设备基本信息、设备接口配置信息、设备之间物理连接关系等。
IPMI管理实现:支持IPMI带外管理监控的设备,可监控内部硬件组件的健康状况,如内存状态、CPU状态、硬盘状态、风扇、温度等。
存储管理:对华为、IBM、EMC、HP、H3C等主流存储设备进行监控,实现对磁盘阵列、光纤交换机基础信息及运行状态的监控与性能管理。
数据库管理:对Postgres、Oracle、MSSQL、Mysql、GBase、达梦等主流数据库实现监控管理,包括数据库状态、数据库实例、表空间大小、监听器、进程、会话、数据命中率等指标监控。
中间件管理:支持对Redis、WebLogic、Websphere、apache、tomcat等主流中间件的实时监控,包括中间件运行状态、性能和通道、队列信息、线程、事务信息、连接池状态、连接数量、最大连接数量、Session数等指标监控。
自动化运维:通过Zabbix触发器与SHEEL脚本,可实现重复简单运维工作的自动操作,如文件分发、文件执行、重启、程序更新、数据库备份、密码修改等等。
平台高效:为了使高速公路智能运维平台更高效、可视化更便捷、更便于运维人员使用,本平台使用了Grafana进行数据渲染。Grafana是一个开源的UI界面解决方案,该技术是通过Go语言开发的数据可视化工具,用于大规模指标数据的可视化展现,其集成了open-falcon、opentsdb、elasticsearch、mysql、influxDB、普罗米修斯等多种数据源,目前支持绝大部分常用的时序数据库。Grafana是一个跨平台的开源度量分析和可视化的工具,可以对采集的数据进行查询,然后可视化展示,亦可以创建具有阈值告警、交互式操作功能的仪表板,并进行及时通知。Grafana本身除了可以做数据监控和数据统计外,还有告警、自定义过滤器等功能,可在运维、资源利用等方面为管理人员提供帮助。
本智能运维平台,深度结合Grafana技术,充分利用其度量分析、阈值告警、交互式操作、可视化等功能,使本平台的仪表板得到进一步优化,便于运维人员监控查询。

部署历程及监控实例

(一)高速公路智能运维平台的部署
在监控系统中,Zabbix客户端需要部署到被监控的业务服务器上,由Agent负责数据采集,然后将采集到的健康数据发送给Zabbix Proxy,然后再发送给Zabbix Server,Server端将从Agent端接收到的监控数据存储到MySQL数据库中,当管理员需要查看或调取各种监控信息时,需要通过Zabbix Web界面来实现Zabbix Web前端是使用php语言编写的,因此,Zabbix Web服务器需要部署LAMP环境以解析处理浏览器的请求。
安装分为二进制安装和源码编译安装,经过综合考虑,决定采用远源码安装,并部署Zabbix Proxy实现分布式监控并降低Zabbix Server的负载,如图2所示。
图片
图2 分布式监控部署
(二)部分监控实例
服务器运行问题严重性如图3所示,数据库负载监控图如图4所示。
图片
图3 监控服务器运行问题严重性
图片
图4 数据库负载监控图

数据分析的实现

(一)数据分析
在运维过程中,最重要的就是对数据的分析以及根据现有监控参数结合系统预警分析未来业务系统的运维方向,有目的、有方向地提高运维效率。因此,通过Go语言匹配了一套自动化运维分析平台。运维导数平台可无缝对接已有的高速公路智能运维平台,适配目前所有版本,如图5所示。
图片
图5 数据导出平台首页
(二)平台模块
平台分为五大模块内容,具体如下。
(1)首页:能看到监控中的服务器主机数量、监控指标、报警触发器以及监控主机暴露的问题等,能使运维人员更方便地查看监控主机参数并导出监控运维报告。
(2)资源管理:此模块能够让运维人员对平台监控项进行细化管理,如可以看到每个服务器或主机分组的整体概况,以及资源服务项的指标查询。
(3)指标报表:此模块可以导出详细的设备运行状态报表,运维人员可自定义报表日常基本巡检项目并进行导出,此报表可以详细查询服务器的CPU、内存、硬盘状态、系统安全以及网卡状态。如图6所示。
图片
图6 平台导出报表详细内容
(4)告警报表:此模块能导出运维主机的详细报警状态,作为留存,以便日后进行详细的告警分析,针对性地进行运维。
(5)系统管理:可管理账户权限、密码修改等。

平台管理效益

智能运维平台在实际日常运维工作中,有极高的稳定性、及时性、实用性。运维过程中,通过平台提供的分析数据,可实现智能告警,大大降低了平均故障响应时间和平均故障修复时间,机电设备完好率和故障主动发现率得到有效提高,同时有效减轻了运维人员的工作量,加强了对复杂多样各式机电设备的掌控,极大提升了运维工作效率,降低了机电运维成本。自平台投入运行以来,机电运维技术管理指标有了显著提高,如表2所示。
表2 管理指标提升效果表
图片

结束语

目前,部署的高速公路智能运维平台已稳定运行数月,平台未发生明显异常情况,信息安全漏洞扫描未出现高风险,极大减轻了一线运维人员的工作压力,提升了整体的运维效率,运维人员可以直观了解整体微服务运行情况和资源使用情况。同时,平台的自动化运维功能可以自动修复常见问题,运维人员仅需在特殊情况下解决需要人工干预的问题即可。

参考文献 

[1] 邹子敬.基于Zabbix的网络监控系统设计与开发[D].上海:东华大学,2016.

[2] 王强.基于分布式的IT综合监控平台的设计和实现[D].北京:北京交通大学,2017.

[3] 贾夫松.基于Zabbix的服务器监控平台的研究[D].济南:山东师范大学,2018.

[4] 于滨,刘鹏宇,陆丽丽等.基于Zabbix的分布式数字化监控系统设计与实现[J].信息通信技术,2018(3):65-71.

(原文刊载于2022年第3期《中国交通信息化》)


微信编辑 | 户利华

责任编辑 | 刘睿健

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多