【51CTO.com原创稿件】为保证核心业务的正常运行,各单位在对自身网络的规划中,都会考虑通过设备冗余来提升网络运行的可靠性。笔者所在单位在进行网络设计规划时,也在网络的核心区进行了冗余性考虑。
但是,就在前段时间,由于核心交换机出现单板故障,单位的所有办公应用系统无法访问。这说明在网络的冗余性设计中对此场景考虑的还不够周全,导致网络的可靠性下降。本文将对此次出现的故障原因进行详细分析,并提出有效的解决方案。
问题描述:
单位的网络在核心区通过两台华为的S7706交换机进行冗余部署,两台核心交换机之间通过多模光纤接口互连,之间部署了VRRP协议;楼层业务区交换机及应用业务区交换机采用双上连方式分别与主备核心交换机相连,部署了STP协议。
唯一不同之处在于,应用业务区交换机与核心交换机因为在同一机房,所以通过五类双绞线互连,而楼层业务区交换机与核心交换机在不同的楼层,所以通过多模光纤相连。(简要流量拓扑图见下图图1)
问题发生时,主核心交换机的光纤接口板上所有接口都出现故障,楼层业务区交换机上连主核心交换机的接口以及主备核心交换机之间的心跳线都在此光纤接口板上,所以都发生了中断;而应用业务区交换机是通过五类双绞线与主核心交换机相连,所以工作正常,没有发生中断。
按照网络的设计初衷,当主核心交换机失效时,业务流量应该切换到备核心交换机上,业务不应该中断,但是在本问题中,主交换机的光纤接口板故障,导致了楼层业务区所有用户都无法访问应用业务区的系统。
故障分析:
如图2所示,光纤接口板故障时,楼层业务区交换机上连主核心交换机的接口中断,通过STP协议切换到备核心交换机上,当楼层办公终端访问应用系统时,流量经过备核心交换机到达应用业务区的应用服务器,而应用服务器回复信息到达主核心交换机后,由于主备核心交换机之间的心跳线故障,所以业务流量到达主核心交换机后无法转发,导致业务中断。
解决方案:
本网络核心区冗余性设计的初衷是通过主备核心交换机及其之间的心跳线来保证在主核心交换机故障时业务正常运行。在上述问题场景时,如果能够保证主备核心交换机之间的心跳不中断,那么业务流量就可以通过备核心交换机到达楼层业务区,从而保证业务正常运行。
在光纤接口板故障时,以太网电口接口板正常工作,如果主备交换机之间的心跳线能够通过电口实现连接,就可以满足我们的需求。但如果只通过电口实现心跳连接的话,那么我们会自然想到,要是电口接口板故障了岂不是心跳线也会故障?答案是肯定的。
所以,我们可以采用光口与电口进行捆绑方式的,恰好笔者单位的华为7706核心交换机也支持此功能,配置也非常简单。
首先,在交换上创建一个Eth-trunk接口,配置成二层trunk模式,允许除vlan 1之外的所有其它vlan通过,配置如下所示:
interface Eth-Trunk1
port link-type trunk
port trunk allow-pass vlan 2 to 4094
Eth-trunk接口配置完成之后,再将一个光接口及一个电接口绑定到此Eth-trunk接口下即可,配置如下所示。其中,光纤接口板槽位号为2,电接口板槽位号为5。
interface GigabitEthernet2/0/47
eth-trunk 1
interface GigabitEthernet5/0/47
eth-trunk 1
绑定之后,当其中一个接口故障时,所有心跳报文都通过另一个接口进行转发,确保业务正常运行,如果还需要进一步增加链路的可靠性,还可以考虑分别将两个光纤接口及两个电接口进行四接口捆绑。
测试验证:
当业务正常运行时,通过手动将主核心交换机的光纤接口板拔出进行故障模拟,业务中断4秒钟左右之后(由于楼层交换机STP协议切换),自动恢复正常。(网络流量如图3所示)
再将光纤接口板插入主核心交换机,接口板自动注册成功,恢复正常工作,在此过程中,业务中断4秒钟左右之后恢复正常(STP协议回切)。
综上所述,在进行网络冗余性设计时,不仅要考虑设备的冗余,还需要考虑链路冗余,对于某些重要的链路,必要时可以采取跨板捆绑的方式进行保护,尽可能将链路中断的可能性降到***。
个人简介:
何涛,男,毕业于北京邮电大学电磁场与微波技术专业,从业十年,现任职中国交通通信信息中心保障与网络中心高级工程师,专注于数据通信及网络安全方向的研究工作。原文标题为“通过跨板接口捆绑 解决业务中断问题”
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】