(湖北华中电力科技开发有限责任公司 430000)
摘要:随着电网信息化的不断推进,营销业务信息系统已实现营销全业务的在线运转,从内部营销业务管理到外部客户服务都离不开营销业务信息系统的支持,如何保障营销业务信息系统健康安全地运行,避免因系统故障导致业务中断,已经成为信息部门亟待考虑的问题。本文通过梳理营销业务信息系统依赖的IT基础设施及技术服务之间的相互依赖与相互影响的关系,研究出一套服务影响模型用于营销业务信息系统运行状态的预警和诊断模型,并将其应用到湖北电网公司的IT日常运维实践中,取得了不错的效果,其成果在信息系统运维自动化领域中有很好的推广和应用价值。
关键词:电力营销;故障预警;故障诊断;运维自动化.
0 引言
目前湖北电网公司营销业务信息系统已经实现数据和应用省集中,并且实现了从业务受理、用电信息采集、电费计算和催收、用电稽查、工作质量管理到客户服务等营销全业务的在线运转,由此带来的运维风险和挑战相比以前地市分散部署大得多,一旦系统宕机势必影响到全省营销业务的正常开展。另外,随着新技术以及新业务模式的引入,营销业务系统技术架构也日趋复杂,IT运维人员在收到某个设备告警事件时,常常无法准确判断其对营销业务信息系统运行状态的影响,而在系统运行状况恶化时又很难快速定位问题组件。
本文通过梳理营销业务信息系统依赖的IT基础设施及技术服务之间的相互依赖与相互影响的关系,建立一套营销业务信息系统运行状态预警和诊断模型,并开发一套相应的应用软件,实时对营销业务信息系统运行整体状态进行监控、预警和诊断,以帮助IT运维人员应对营销业务信息系统运维的复杂性和巨大压力。
1 状态预警与诊断模型
1.1 依赖关系树
从技术上看,信息系统就是由一系列相互关联的IT组件组合而成的人机一体化系统,这些IT组件相互依赖相互影响,共同完成信息的收集、处理、存储和发布以支持组织的业务。这里IT组件是指一个物理或逻辑的IT资源例如交换机、路由器、服务器、数据库、应用软件等,根据运维管理深度需要一个IT组件可以划分更细粒度组件,例如服务器组件包含磁盘、CPU、网卡等组件。IT组件存在于某一信息系统中的理由是它能单独或与其他组件一起提供信息系统所依赖的服务,例如数据库提供数据存储和检索服务,路由器提供网络路由服务等等。如果能够以信息系统为顶点自上而下梳理出其所依赖的服务和IT组件,形成一棵依赖关系树,并研究出一套科学的状态传播和计算算法,我们就能在某个IT组件出现故障时就能自下而上计算出信息系统运行状态受到的影响程度;反之,在信息系统运行状态出现问题时也能够自上往下定位问题组件,从而实现信息系统运行状态的预警和诊断。
在信息系统依赖关系树中,某一节点状态既受其关联事件(来自监测平台)严重性影响,也可能受其供应者节点状态的影响,节点状态由供应者影响计算状态和事件影响计算状态合并计算而得,计算模型如图2所示,说明如下:
事件影响状态计算:取其关联事件中严重性级别最高事件来作为事件影响状态;
供应者组件影响状态计算:提供MAX(最大值)、Average(平均)、Quorum(法定数量)、Weight(权重)4中算法,分别说明如下:
MAX:取供应者节点传播状态中的最大值作为供应者影响状态,可以理解为任一供应者节点宕机导致消费者节点宕机,属于强依赖关系;
Average:取供应者节点状态平均值作为供应者影响状态,可以理解为所有供应者节点宕机才导致消费者节点宕机,属于弱依赖关系;
Quorum:将供应者节点按降序排序,取前法定比例或数量供应者中的最小传播状态值作为供应者影响状态,可以理解为达到或超过法定比例或数量的供应者节点宕机才导致消费者节点宕机,适合集群服务状态计算。
Weight:设供应者组件的传播状态为x,其权重为w,则供应者影响状态为(w1x1+w2x2+…+wnxn)/(w1+w2….+Wn),即权重大的供应者节点对消费者节点状态影响大。
组件状态计算:组件最终状态是合并事件影响状态值和供应者影响状态值而得,提供MAX、Self-Preferred 等2种算法,分别说明如下:
MAX:取事件影响状态值和供应者影响状态值中的最大值作为组件状态。
Self-Preferred:优先取事件影响状态值作为组件状态。
2 技术实现
基于信息系统运行状态预警与诊断模型,我们设计和开发了一套应用软件,用于对系统运行状态进行监控、预警和诊断。限于篇幅,本文只描述节点状态计算程序结构,如图3所示。
节点状态计算是一个服务程序,采用共享内存技术,支持多进程并发运行,它接受来自IT基层设施监控平台发送的事件,根据匹配规则将事件与IT组件关联,实现节点状态计算与传播。
初始化:服务启动时将模型实例数据和相关配置参数读入到共享内存,同时触发状态刷新程序。
状态刷新:根据事件列表重新计算一遍各节点状态,主要是为了避免某种异常情况下(例如服务宕机)导致节点状态与实际情况不一致的现象出现。
事件接收:服务程序提供http接口接收外部监控平台发送的事件,事件的详细信息封装在POST请求中。
事件关联:根据节点设置的事件匹配规则将相关事件关联到节点上。
状态计算与传播:当事件匹配上某个节点时驱动该节点状态计算,并触发消费者节点状态的重算,从而实现节点状态在依赖关系树中逐层向上传播直到顶节点。
图4 电力营销系统运行状态监控视图
4 结语
本项目实践表明,基于依赖关系建立的系统运行状态预警与诊断模型,能够将IT组件故障影响实时反映到系统总体运行状态上,同时在系统运行状态出现异常也能帮助运维人员快速诊断问题组,该技术在IT运维领域中具备较高的推广和应用价值。
论文作者:上官朝晖,应君裕,黄文杰,杜端,温兵兵
论文发表刊物:《电力设备》2017年第20期
论文发表时间:2017/11/20
标签:状态论文; 节点论文; 供应者论文; 信息系统论文; 组件论文; 业务论文; 事件论文; 《电力设备》2017年第20期论文;