河南公司传输网络规模介绍
河南公司地市共计18个,传输EMS共计114台,涉及厂家有华为、中兴、烽火、贝尔。
从2008年开始,我省自主开始传输SDH、WDM设备故障集中监控自动派单工作,其后,随着新设备入网,陆续开展了OTN、PTN、PON等设备故障集中监控自动派单工作。
为提升派单准确率、工单压缩率,我省研究了一系列告警关联规则、传输预处理规则。
截止到目前,我省共梳理派单规则235条,告警关联规则54条,编制了《传输告警预处理手册》、《传输告警处理手册》等。
传输故障处理手段建设
1人工处理手段建设
传统维护模式登录繁杂:利用现有故障管理系统查看告警、处理故障时,需要登陆厂家传输EMS进行查询、分析、处理。维护人员根据设备类型登录不同厂家EMS,需保存众多用户名密码等登录信息,不利于快速定位故障、判断故障原因。
一键登录,简化工作:为解决这个问题,我省利用安全管控平台,在故障管理系统上实现了一键登录EMS系统查看传输拓扑,实现传输本地网告警在EMS的查询、环回等功能,并且可以同时登录多个厂家EMS分别进行操作。
1、用户登录故障管理系统,点击”登陆EMS/OMC”;
2、故障管理系统调用安全管控平台http接口;
3、安全管控平台调用CITRIX接口生成ICA文件,并将ICA文件返回用户;
4、用户IE呼起CITRIX客户端,登录资源。
“一键登录”的创新,极大的提高了工作效率,原来登录一个厂家EMS大概需要花费2分半钟,现在只需要35秒,一次节约2分钟,以每人每天登陆EMS系统30次计算,每人每天就可节约1小时。
2智能化手段建设
网络规模扩大:随着网络规模扩大,我省月工单量从2010年的3000左右增加至2014年的12000以上,并有进一步增长的趋势。其中,同一个故障引起却派发多张工单、市电停电引起的故障工单却派发至光缆、设备维护班组等情况时有发生。
智能处理、提升效率:我省从对象、能力、方式三个维度出发,依托故障管理系统,采取“系统预处理+智能预处理”的形式,利用“一键登录”等手段,实现故障精准定位,原因快速判断,提升了维护人员的工作效率,减轻地市维护人员的工作量。
以系统预处理为基础,实现故障定位,信息提取及原因初步分析,达到全专业中级预处理水平。对派单量较大且处理经验已比较成熟的故障进行智能高级预处理
从我省工单数据来看,LOS类告警占比高达80%,根据LOS告警产生的原因,我省定义了5大场景,并根据每种场景,共梳理了告警派单条件1条,告警关联规则2类共27条、智能预处理规则2类共9条,涵盖了所有原因引起的LOS告警。
通过LOS告警的智能处理手段建设,极大的提高了派单准确率和工作效率。
以往一线维护人员处理LOS告警时,可能需要设备组、光缆组、代维发电组人员全部到场,或咨询监控值班人员,通过查询、分析判断准确故障原因后再去现场,浪费了很大的人力、时间。
智能化手段建设,可以精准判断故障原因,并对同一故障的多张工单进行合并,节省了人力、时间。
以我省每月15000张工单来算,LOS告警工单能达到12000张,节省人力可达24000余次/月(设备组、光缆组、代维发电组仅去一组人员),或节省时间3000小时(人工单次查询分析故障原因时间15分钟左右)。
重要业务重大故障衍生告警
存在难点
我省通过“自动预警+人工确认方式”完美规避了上述两个难题,使本次大会战攻坚项目顺利进行。
自动预警——模糊算法:通过对我省传输网络的分析,传输原因引起“40个基站中断”的重大故障,其故障点在汇聚层或汇聚层以上网络中;引起“50G业务中断”的故障点在核心层网络。也就是说,接入层传输故障引起的业务中断达不到40个基站或50G业务量的标准,而一个汇聚层节点失效的话,引起的业务中断大部分会达到40个基站或50G业务量的标准。
我省梳理汇聚层及以上节点失效的场景共计10个,并在故障管理系统上完成规则部署,当发生符合场景的告警时,系统自动生成“重大故障预警”,并自动通知维护人员处理。
解决方案
人工确认——精确确认:“重大故障预警”产生后,自动通知相关维护人员处理,通过现网分析、电话咨询等手段,若发现达到“40个基站或50G业务量中断”的重大故障标准,则由维护人员进行“人工确认”,将“重大故障预警”提升为“重大故障”,并自动上报集团。
“自动预警+人工确认方式”能够简单、便捷的实现重要业务重大故障的衍生规则,不需要投入大量人力、财力去开发计算机自动算法或维护庞大的数据库。根据之前“滴滴公司”开发打车软件自动接单算法,耗费100万美元,我省的方式可以为公司节省费用至少600万元。另外,此方式还可以避免资源系统数据错误导致误报的可能性。
效果评估
以光缆双断为例,当A站两端均发生光缆中断时,B、D两站上报LOS告警,系统自动产生“[重大故障预警]汇聚层环网发生双点LOS告警”,并自动派发短信通知相关设备主管。
维护人员发现预警信息后,通过查看告警、分析接入环是否双归、联系电源组排除停电原因、联系业务方确认中断规模后,根据实际情况,选择“提升预警信息为重大故障”,并自动上报集团。