高校智能网络运维——以河南大学郑州校区为例

来源:本站  作者:任小金 河南大学计算机与信息学院  发表于:2023.09.28   513浏览

/任小金 河南大学计算机与信息学院副院长

摘要:随着信息化的发展,高校校园网用户数、设备数、在线终端数等越来越多,传统网络运维方式效率低、人力成本高,难以支撑校园网稳定运行,网络运维逐渐从传统的人工运维转向智能化运维。本文以河南大学郑州校区智能网络运维建设为例,从基础网络建设需求、运维的自动部署、网随人动、业务智能规划、智能分析等方面阐述了智慧网络运维建设。

关键词:自动部署;大数据分析;SDN;人工智能

 

一、网络运维的背景

网络运维是指对网络设备和系统进行监控、维护和管理,以确保网络的正常运行和高效性能。它涉及网络监控、故障排除、性能优化、安全管理等方面。传统的网络运维下,网络的部署、运维主要依赖人工手动完成网络规划、设备部署调试、排查故障、处理问题等。整个网络运维的效率极低,很容易由于个人的失误影响整个网络的部署,特别是在网络开始部署和故障处理的阶段。以学校为例,如果要完成一个校园的网络设备调试,从设备配置脚本、逐台设备配合导入到整体网络联调,整个流程至少需要两周以上时间。而在故障定位时,要先进行故障分类,判断故障属于哪一层——物理层、链路层、配置层或是设备层等,然后通过手动ping等传统手段进行逐节点排查,找到可能出现问题的设备,再对配置命令进行检查,最后对故障链路、设备进行替换。整个过程需要投入大量的人力和时间成本。

为了解决传统网络运维方式存在的问题,人们开始使用各种技术使网络可以自我管理和自我修复,同时人工智能和智能化技术也被不断应用到网络运维中,智能网络运维概念应运而生。智能网络运维是指利用人工智能和大数据分析等技术,对网络设备和系统进行监控和管理的过程。通过智能网络运维,网络管理员可以更加高效地管理和维护网络设备,提高网络的可靠性和稳定性,为用户提供更好的网络体验。

二、智能网络运维发展现状

智能网络运维的发展带来了许多好处。首先,它能够自动化和智能化地识别和解决网络问题。通过分析海量的网络数据,智能网络运维系统可以快速定位和排除故障,大幅缩短了故障处理的时间。其次,智能网络运维可以提供实时的网络监控和预警功能,帮助运维人员及时发现和解决潜在问题,从而提高网络的稳定性和可用性。此外,智能网络运维还可以通过自动化的方式进行网络资源的优化和配置,提高网络的性能和效率。智能网络运维的发展现状主要包括以下几个方面:

1.自动化运维:智能网络运维利用自动化技术来替代传统的人工操作,减少了人为错误和工作量,提高了运维效率。在当下,成熟的智能化运维通过SDN技术和网络管理工具结合,可以基本上实现智能网络化和网络监控。现阶段的智能网络化运维侧重于智能化和实时监控两个大方向。通过智能化的手段加快设备开局部署速度、提高业务变化的灵活性、加快故障设备替换和网络恢复的速度,通过网络监控工具收集网络性能数据、故障告警和日志信息,简化运维流程,用智能化工具减少人工工作量。

2.大数据分析:智能网络运维通过收集和分析大量的网络数据,可以提供对网络性能和安全的全面监测和分析。借助大数据分析和机器学习等技术,利用历史数据和趋势进行分析和预测,借助现成的网络模型结合自身网络情况生产智能数据库,以实现更精准的排障和网络优化。

3.人工智能技术:智能网络运维利用人工智能技术如机器学习和深度学习,来实现智能化的网络管理和优化。未来智能化运维重点在自愈网络和智能决策方向,即网络可以通过自动检测、判断和修复故障实现自我管理和自我修复,人工智能和智能化技术可以帮助网络实时适应变化的环境与需求,提供智能决策支持和快速响应的操作手段,最大程度保障网络的可靠性、性能和用户体验。

三、智能网络运维实例

以河南大学郑州校区为例,学校目前已建设完成基础网络建设的教学楼宇有文科南组团、文科中组团、理科南组团、理科中组团、北组团楼、科技创新楼等多栋建筑,实现了智能网络化运维。

1.建设思路

围绕河南大学郑州校区基础网络建设目标——实现高性能、稳定性、可扩展、自动运维等,经过对现状的分析以及多次调研,最终选择以SDN技术建设校园网,实现智能网络运维。SDN智能运维网络融合控制、管理、分析三大模块,全面考虑校内各种业务网络使用需求,从顶层网络设计、网络配置部署、后期运维保障进行智能化运维落地。

2.具体实施

(1)自动部署

在基础网络层面将交换设备进行分类,按照不同角色进行配置。同一角色设备的配置完全统一,从而将整网设备的配置文件简化。通过界面上的引导式配置,无需输入任何命令行即可完成配置文件的自动生成,并将其保存在管控组件上。在管理员完成必需的预部署后,管控组件、DHCP服务器和设备配合,在设备上电后无需人工干预即可自动加载对应角色的配置文件,让自动化部署真正成为最简单的网络部署方式,大大提高了部署效率(如图1、图4所示)。图1为零配置上线示意图,图4为配置模板。当进行设备扩容和替换时,设备上电后,将自动识别新增扩容设备,图2为网络弹性扩容示意图,包含替换掉故障设备位置的新设备,图3为设备故障替换示意图,平台下发对应角色的规划配置并自动纳管。同时提供了精确替换流程,可以完全恢复被替换设备上的已有配置。

 

1 零配置上线       图2 网络弹性扩容        图3 设备故障替换

4 配置模板

2网随人动

过去用户移动,IP地址会不断变化,对应的权限和策略也会相应变化,网络管理员需要不断地调整网络。而在智能网络运维情况下,在部门搬迁、工位调整时可做到网随人动,即用户移动,地址不变,权限不变,网络管理员“零干预”即可(如图5所示)。

 

5 网随人动

3业务智能规划调整

维修人员能够以VLAN和VXLAN的形式为不同业务定制虚拟专网并进行任意局部的网络逻辑切片、隔离。在可视化、易操作的界面上进行了智能网络化专网、认证及DHCP专网、无线专网、安防专网、教学专网、科研专网、办公网的虚拟网络规划。

4多维度数据展示

网络维度:展示每个设备的健康度变化趋势、系统状态、表项资源、端口、链路等信息。

用户维度:展示每个用户的终端信息、健康度变化趋势、局部拓扑、接入旅程、协议回放等。对于质差用户给出影响用户质量的关键指标分析以及根因建议。

应用维度:展示每个应用的流量统计以及关联用户变化趋势。针对每个应用会话展示时延、抖动、丢包等质量信息(如图6所示)。

 

6 多维度展示

5智能分析

过准实时采集设备数据(周期采集、自动上报),利用大数据技术提供海量数据存储以及实时流处理分析,利用机器学习算法进行趋势预测和异常检测,提供实时的网络、用户、应用健康度计算及展示(如图7所示),自动分析识别校园网络故障(如图8所示),并结合控制组件形成分钟级故障定位与闭环能力。以网络异常为例,当智能运维系统检测到网络异常指标时,将触发告警时间,经运维人员确认故障后,智能运维系统将通过机器学习算法定位故障,然后调用自动化运维工具执行相应的修复操作,实现该场景下故障自愈(如图9所示)。

 

7 健康程度分析图

 

 

8 告警信息展示

 

9 故障自愈

3.建设成效

建设完成后日常运维工作量大大降低。1)业务调整、网络变更、故障设备替换等工作都不需要到现场进行设备的调试,通过平台远程即可完成,同时配合分析器简单故障无需人工干预,智能化运维平台可自动完成简单故障恢复、无线调优等方面工作。2)部署网络复杂度降低40%:传统校园网络设备部署调试基本需要两周左右时间才能完成联调最终上线,通过SDN技术引入,以智能化手段完成网络部署仅需在管理平台上完成整体网络规划,生成对应设备配置模板自动下发,整个过程只需3天时间即可完成最终联调及整网业务上线3)网络故障处理效率提升60%:唯一需要到现场处理的网络故障工作是将故障设备下架换成替换设备,其他流程均可在管理平台进行。结合机器学习和人工智能分析,通过智能判断和本地维护知识库降低了故障处理难度,让网络维护工作不再棘手。最终实现网随人动、极简融合、智能运维,为学校的信息化建设打造最好用、最方便、最先进的信息化基础底座。