实战案例:每次集体断电后,总有那么一些 AP 无法上线?呵,真是有意思(智障)的案例!

本期分享的案例是有线网络的相关问题。

1. 背景介绍

某个商场使用了某P品牌的AC+AP,一共是50多个点位,实现无线覆盖组网,近期运维人员发现,每次机房断电后,总有那么一些AP没法上线,必须要尝试断电重启(拔插PoE交换机端口)这些AP多次才能上来。

拓扑也是很简单:

网段:192.168.0.0/23,起始地址为:192.168.0.1—192.168.1.2542. 处理思路

针对AP离线的问题,我们的标准排查思路是什么呢?主要如下:

确认AP的运行状态和接线是否正常;确认AP是否正确获取到了IP地址;确认AP是否正常属于网络中,并且AC能ping通AP设备;如果是跨三层管理,注意DHCP服务器上是否配置了option字段保证AP能单播找到AC实现管理。

来吧,一个一个看,很有意思。

3. 排查分析

第一步:确认AP的运行状态和接线是否正常

AP接线确认:通过POE交换机上网线标签,确认网口灯是正常亮的,POE供电和Link正常AP状态确认:我们找到了离线AP,定睛一看,AP的指示灯是常量的,说明已经被管理了。

意味着什么?意味着AP设备可能已经被管理了,但是这个是离线设备,是不是匪夷所思?

第二步:确认AP是否正确获取到了IP地址

现场是一个二层网络,所以可以直接在核心交换机的ARP表上查看是否有学到离线AP的IP-MAC就行:

发现是能正常学到的,但由于ARP表项老换时间过长,学到了不一定表示其一直在网络中,那么下来看一下交换机的MAC地址表中有没有:

有学到了MAC地址条目,并且处于15号口,那就说明AP设备一定还在网络中的,基本排除了物理连通性问题。

第三步:测试AC能ping通AP设备

AC要想正常管理到AP,两者必须是通的,所以下一步在AC的诊断工具中自己去ping该AP,发现是ping不通的,然后用核心交换机去ping该AP:

发现核心也ping不通AP!但是又能学到它的ARP,这又是怎么一回事呢?玄学吧!而其它正常在线的AP都是能通的,下来进一步再确认AC是否跨三层管理AP,很显然这个网络不需要,所以无需关注option配置。

第四步:抽丝剥茧

所以各位,我们把上面的证据收集下来然后剖析一下:

AP离线,但是接线link正常,指示灯常量(被管理)核心交换机能学到离线AP的ARP,并且MAC表能查到AP对应的端口,其就在网络中没跑AP能拿到IP 192.168.1.12,192.168.0.1的核心和192.168.0.253的AC却ping不通它

那么,真相似乎只有一个了!离线AP被其它AC设备管理到了,并且非法AC给AP分配的地址应该是192.168.1.X/24。反推完美解释上述三条证据链!如何验证?空口抓包看看。

第五步:空口抓包验证非法AC的存在

因为接入POE交换机是傻瓜式的嘛,所以无法端口监AP确认其交互情况。但可以直接抓空口广播包确认,为何?因为AP在DHCP交互时会有广播交互。我们就看看,出了核心交换机给它分配地址,还有谁!

重启一个AP后,看到没有,出了0.1这个核心,还有1.253给它分配了地址,看下内容:

OK,确认找到了非法AC设备,这个设备的IP正是192.168.1.253。然后通过这个IP登录看看:

果不其然,离线AP都在上面上线了。但是这台非法AC为何会出现在网络里呢?说来好笑,是因为现场的交换机不够用了,正好发现一台“类似交换机”的设备直接插上就用,欸,发现有线也好使。

4. 原理及解决方案

(1) 故障原理

非法AC当成交换机接入网络使用,AP重启时会概率性的给它分配192.168.1.0/24 IP地址,所以这些AP没法和192.168.0.X网段的交换机、合法AC通信,并且在非法AC上上线。

(2) 解决方案

将非法AC设备192.168.1.253从网络中撤掉即可。

THE END
本站服务器由亿华云赞助提供-企业级高防云服务器