当地的李长泰团队现网的维护工具看到链路的平均利用率达到70%。当时服务团队认为70%利用率是一个潜在风险因素,但链路利用率没有到90%~100%,并不会严重影响业务性能。而在网络性能数字化分析系统Beta系统里,可以很明显地看出这几条链路在平均利用率大于70%时,拥塞、丢包数在急速地增加,从而会成倍地放大业务的端到端延迟,这与客户在第三方测试工具上观察到的,50ms上升到400ms延迟的现象是吻合的。
当得知监测和分析的结果后,服务团队在当晚8时基于李长泰团队指出的四条链路,在设备上进一步查看端口详细的性能数据统计,也发现了流量暴增、端口丢包数急速增加的现象。通过流量分担等试验操作、数据测试等,客户办公室这边的基站不拥塞了,时延从400ms下降到60ms。由于影响该基站性能劣化的链路并不在该商业区附近,而是在汇聚全网流量的骨干侧,全网流量的高峰期仍然是晚上8时。这个分析结果可以百分之百地解释基站在非业务高峰期出现性能劣化的现象。经过反复对比,持续观察两周后,CTO也认为该问题得到了准确定位和彻底解决。(5)