与业务严重耦合没法作为产品推出,全面支撑网络设计、网络部署、业务发放、日常监控等端到端环节

华为的运维解决方案支撑自动、智能的网络规划和设计,10万台服务器

随着UMTS/LTE等业务的迅猛发展,IP
RAN已经成为分组承载的主流技术选择。同时,分组化网络的运维给运营商带来巨大的挑战。网络运维需要提供基于图形化操作模式,并具备全面高效的管理能力。华为基于网络IP化需求,提供端到端可视化的U2000融合运维解决方案,全面支撑网络设计、网络部署、业务发放、日常监控等端到端环节,实现智能高效、简易运维。

现状

图片 1 

•小公司/ 创业团队< 500台服务器规模

一、网络设计,自动智能

开源方案:Zabbix、Nagios、Cacti…

华为的运维解决方案支撑自动、智能的网络规划和设计,通过Unistar
CFG工具,能自动生成BoQ, 然后,可以把BOQ信息导入到Unistar
Designer可视化工具里面,自动进行IP地址分配和拖拽式拓扑设计,输出规划设计表单。

云服务提供商:监控宝、oneAlert等

通过Unistar
Designer设计工具,网络的拓扑设计效率可以提高到以前24倍,网络的IP设计效率能提高到以前的3倍。

•BAT级别> 10万台服务器

最后,把规划设计表单导入到U2000,并在U2000选择定义好的模板,定义网络的一些基本参数,例如,特定的路由协议,通过U2000的LCT组件,就能智能地生成每一个设备的基础配置脚本。

投入大量的人力,内部自研,与业务严重耦合没法作为产品推出

有了智能的规划设计工具,设计人员不再需要高超的IP技术,同时自动化的计算将设计人员从繁重的专业劳动中解脱出来,采用基于仿真界面拖拽的方式,即可实现,而且更加高效准确。

•中间阶层

二、网络部署,即插即用

无从可选

即插即用直接决定着建设工期的长短,也决定着运营商能否抢占业务发展先机。做好规划设计后,在华为U2000的支撑下,设备可以即插即用,平均每台的部署时间缩短为5分钟。当需要增加新接入节点的时候,只需要普通工程人员携带设备到站点,安装设备,连接光纤,加电,运维中心即可管理该设备,并实现基础配置自动下发。整个过程只需要进一次站,为高质量快速交付提供了保障,有效降低设备开局进站成本。传统命令行方式,每部署一个站,需要平均30分钟以上,耗人耗时。

 

移动基站插花式部署,导致接入网变动频繁,华为U2000运维方案2分钟可完成一个站点业务的调整,是MSTP网络调整效率的4倍。

早期,选用Zabbix

三、业务发放,可视简单

•Zabbix是一款开源的企业级监控系统

移动承载时代,快速发放业务,就意味着能够快速盈利,同时,还要考虑传送背景的维护人员的转型压力。华为提供业界最高效的解决方案,可进行全可视化、可管理的业务部署,可以在3分钟完成一个节点的业务部署,比传统命令行方式,效率提高到5倍。网管生成的业务路径和状态,可以清晰的展示出来,所见即所得,直观高效。

•对其进行二次开发、封装、调优…

四、主动监控,实时全面

•为什么选择Zabbix

通过主动监控,U2000可以列出整个网络最繁忙的链路,以及链路的占用比例,运营商可以根据链路的繁忙情况,提前考虑下一步网络规划。

•Cacti

通过主动监控,U2000还可以分区域,监控网络KPI指标,当网络KPI指标出现劣化趋势的时候,运营商可以提前发现,并解决问题,帮助客户有效监控网络质量情况。

•Collectd

五、故障定位,快速高效

•RRDtool

U2000基于对业务的深刻理解,提供告警相关性分析功能,可以过滤85%到90%的无效告警,直接定位故障,提高故障定位的效率;同时,U2000还可以基于可视化路径快速定位故障,通过输入源宿地址,自动发现业务路径,一键操作,即可快速定界故障。为减少客户损失,快速排障做出了极大的贡献。华为运维解决方案平均10分钟完成一个故障定位,也远快于传统命令行的1个小时每故障定位。

•Nagios

总体上来说,U2000网管系统从设计思路上屏蔽了IP的复杂性,以直观图形化操作方式,继承SDH维护经验,提供一致的操作体验,在维护全生命周期中,能实现远程调测免进站、即时发现质量劣化
、快速定位故障、简化的调整流程
、E2E可视开通、批量模板化配置等操作,是运维人员不可缺少的维护利器。

•openTSDB

RAN已经成为分组承载的主流技术选择。同时,分组化网络的运维给运营商带来巨大的挑战。网络运维需要…

 

Zabbix实践思路

•测试ZabbixNode

•Zabbix代码优化

•使用模式优化

•独立部署多套Zabbix,通过API整合

 

Zabbix遇到的问题

•随着公司业务规模的快速发展

•用户“使用效率”低下,学习成本很高

•不具备水平扩展能力,无法支撑业务需求

•告警策略的维护、变更代价太大,导致运维人员深陷其中,无法自拔

•不利于自动化,不利于与运维平台等基础设施整合


Open-Falcon

Open-Falcon是小米运维团队设计开发的一款互联网企业级监控系统

•提供最好用、最人性化的互联网企业级监控解决方案

•项目主页:

•Github:

•QQ讨论组:373249123

•微信公众号:OpenFalcon

 

社区贡献

•交换机监控

•Windows监控

•Agent宕机监控