网络数智化是指人工智能、大数据技术与通信网络的硬件、软件、系统、流程等深度融合,而利用AI、大数据技术助力通信网络运维数智化,是实现自动驾驶网络高阶能力的基石。国务院国资委《关于加快推进国有企业数字化转型工作的通知》系统阐明了国有企业数字化转型的基础、方向、重点和举措,“上云用数赋智”贯穿始终。
中国移动(600941)数字化战略进程逐步推进,对网络的访问质量、灵活调度、可靠性等特性提出更高的要求,以算力网络为代表的基础设施更是以“数字时代新能源”为目标,要求具备相应的数字化网络支撑能力。
运维领域网络故障诊断技术分析
通过对行业内头部企业和专业公司的走访、调研、交流,笔者发现行业内网络故障诊断技术主要分为两类:一类是主动探测技术,例如端到端探针埋点;另一类是被动探测技术,包括旁路分析、带内报文染色。
端到端探针埋点
端到端探针埋点是通过部署在不同网络区域、设备下的探针,进行双向业务及网络测试,生成端到端的SLA报告,根据异常探针位置定位某一段网络故障。该模式存在以下不足:一是复杂数据中心网络部署难度大,通用性低;二是缺少与网络设备的数据交互。
带内报文染色
网络故障发现、定界、定位主要依赖带内报文染色、拨测流多因子关联分析,带内报文染色利用诊断模型对数据进行挖掘、交叉分析,选出故障概率最高的网元及根因。但报文染色特性对设备兼容性要求高,在电信运营、政务、交通、金融等领域难落地,可推广性不强。
本文提出基于知识图谱AI算法,以真实业务流、拨测流中国移动IT云资源池网络故障诊断的探索和实践异常检测为故障触点,结合异常流的访问路径、资产、组网特征等关联属性,进行交叉共性分析、故障场景模型匹配,从而实现故障网元自动定界定位。
网络故障智能诊断体系
中国移动IT云数据中心的网络数智化运维依托云网络基础设施,结合运维大数据,构建数字化网络平面,打造了一个以感知、定位、决策为核心路径的网络自动驾驶平台。以真实业务流、拨测流异常检测为故障触点,结合异常流的访问路径、资产、组网特征等关联属性,进行交叉共性分析,自动感知资源池全局到局部的异常状态,自动定位故障发生的网络节点,匹配故障决策场景,实现网络自动驾驶。网络故障诊断流程如图1所示。
网络流采集
网络流采集运用报文分析技术,实现原理为:数据中心中的每个网络节点包含n个应用服务,应用间调用依赖网络节点的数据包转发。通过在网络中的关键节点配置端口镜像,如防火墙、负载均衡器、汇聚节点等,将业务流量切片,接入到镜像交换机,分析服务器采集镜像交换机中的镜像报文,分析应用在每个关键节点上TCP/UDP层的行为,生成时延、成功率、数量等显性指标。
网络流分类
网络流的统计分类可以基于生产环境运维过程中的故障辐射范围,从云资源池、POD内、POD外,到网络平面、VPC,也可以灵活自定义分类。
报文在网络中的流转分为业务路径及网络路径。
业务路径:每个业务系统由若干功能模块组成,每个功能模块由若干应用服务组成,而系统内所有应用服务间的调用逻辑组成了系统业务路径。
网络路径:每个应用服务的一次调用,在网络中形成一对五元组的流,将流从源地址到目标地址访问过程中的每一次转发汇总,形成一条网络路径。
异常流检测
在分析研究网络流实测数据特征后,本文采用ARIMA模型算法来做异常检测。该模型相较于一元线性回归模型,对多因素、复杂的问题解释性高;相较于ARMA模型,可以将非平稳时间序列转换为平稳的时间序列;相较于SARIMA模型,网络流的数据不具有季节性变化。
构建模型需要提取每个指标的历史数据,剔除负面历史数据,根据每周期移动平均值、每周期差分系数、每波动周期趋势系数,生成各类指标的预测值、上波动值、下波动值。
同时在实际生产过程中,指标预测容易因瞬时值、故障值变化导致数据失真,因此应采用“削峰去谷”、异常标注等方法,提高样本精准度。
“削峰去谷”:将样本自定义n个周期,每周期内剔除m%的峰、谷指标,剔除的指标根据样本补齐算法自动替换。
异常标注:根据指标的告警、恢复周期,自动标识并剔除异常指标,根据样本补齐算法自动替换。
故障定位
常用的网络故障管理方法有模糊逻辑检测、专家诊断、神经网络系统检测诊断和各种智能化诊断等。由于这些方法各有优劣,所以在应用中大多结合使用。
本文提出的方案以异常拨测流数据为触点,通过网络路径的共性分析,得到拨测流路径中交叉网元信息,计算网元中异常流与正常流的占比,得到故障网元的概率分布。
基于路由表项、策略引流配置,自动生成每条探测流之间经过的网元,当异常流产生时,根据交叉网元经过的异常流与正常流占比,推算共性网元的故障概率。
假设某个POD1内有4个异常流,分别命名为POD1-1、POD1-2、POD1-3、POD1-4,展开每个异常拨测流访问路径,包括二层路径、三层路径以及路径中经过的每个网元节点,根据路径中的交叉性、入网属性、归一性,以及异常占比,计算共性网元的故障概率,取故障概率最高值定义为故障共性网元。
故障场景匹配
故障网元定位出来后,需要帮助运维人员缩短故障处理时间,本文引入知识图谱模型。基于知识图谱模型、历史故障的数据特征(如指标趋势、表项变动频率、关联网元状态等),构建仿真验证的故障场景模型。
本文以网元指标类型、采集方式为维度,构建了一个与网元设备进行数据交互的原子用例。运维人员结合专家知识图谱,自定义编排、组合原子交互用例,形成各类故障场景特征库。
在网元与故障场景特征匹配时,通过原子交互用例与网元进行数据交互,判断获取的指标数据是否在故障特征用例取值区间内,满足匹配条件后输出故障根因与自愈决策建议。
以VRRP双主场景为例,分析异常网元指标(高丢包率),结合网元归属特征、节点映射关系和VRRP双主场景用例,得出丢包根因“Vlan xx VRRP双主”。从场景用例可以发现,两个VRRP主路由器竞争相同的虚拟IP地址,导致地址冲突。同时,VRRP组在主备之间频繁切换,增加了网络时延和丢包率。日志显示VRRP状态的信息,如主备状态、切换信息、虚地址列表、版本等。
决策建议
完成故障诊断后,推送决策建议到相关方。决策内容主要分为两类:匹配知识图谱的故障处理建议和未匹配知识图谱的故障定位信息,包括网元路径、故障网元、源目地址、网元指标等。
本文围绕网络运行质量构建网络故障智能诊断体系,将网络运行中依赖的数据要素解耦为可观测指标,结合机器学习、异常检测、高性能探针、流处理引擎等技术,自动评估网元、网络、链路、路径、区域、租户、子网健康状态,结合知识图谱场景化构建,实现故障快速根因定位。
中国移动通过在IT云试点并积累经验,不断完善异常检测模式和故障场景种类,平台能力已覆盖IT云区域中心的所有片区中心,并逐步推广至银行、金融、交通、能源等行业。
(责任编辑:admin)(来源:通讯世界网,原题《中国移动IT云资源池网络故障诊断的探索和实践》) |