0%

网络问题排查-IPv6环境下VIP地址不通

问题背景

IPv6环境下,在浏览器中通过http://[vip:port]访问web业务,提示无法访问此网站,[vip]的响应时间过长。

分析过程

之前碰到过多次在PC浏览器上无法访问vip的情况,排查方法也很明确:

  1. 在集群的vip所在节点上访问是否正常;
  2. 在集群范围内其他节点上访问是否正常;
  3. 在集群之外的同网段linux环境上访问是否正常;
  4. 在其他环境的PC浏览器上访问是否正常;

验证发现,直接在vip所在节点上访问竟然不通!登录vip所在节点执行ip addr可以看到该地址确实是正确配置了,但 ping6该地址无回应,对应的ipv4地址 ping有回应。按说ping本机的地址不应该和链路的状态有关系,那会是什么原因呢?在仔细检查地址配置情况后发现该地址有个标记tentative dadfailed

1
2
3
4
5
6
7
8
17: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP group default qlen 1000
link/ether 0c:da:41:1d:a8:62 brd ff:ff:ff:ff:ff:ff
inet 10.10.10.17/16 scope global eth0
valid_lft forever preferred_lft forever
inet6 2000::10:18/128 scope global tentative dadfailed
valid_lft forever preferred_lft 0sec
inet6 fe80::eda:41ff:fe1d:a862/64 scope link
valid_lft forever preferred_lft forever

ip-address(8) 查到对该标记的解释如下:

1
2
tentative
(IPv6 only) only list addresses which have not yet passed duplicate address detection.

显然该地址没有通过地址重复探测(duplicate address detection,简称dad),而且这种检查机制只针对IPv6经确认,该环境的IPv6网段只有自己在用,且未手工配置过IPv6地址,但该环境曾经发生过切主

至此问题基本明确了,切主时会把老的主节点上的vip删除,再到新的主节点上把vip添加上去。如果一切正常,按照这个顺序切主没有问题,但也存在某些异常情况(比如老主上的vip没有及时删掉,而新主上已经添加好了),此时就会触发dad机制。经过验证,一旦出现dadfailed,即使地址冲突解决了,该地址依然无法访问;

解决方案

方案1:在sysctl配置中增加如下内核参数:

1
2
3
4
5
6
7
net.ipv6.conf.all.accept_dad = 0
net.ipv6.conf.default.accept_dad = 0
net.ipv6.conf.eth0.accept_dad = 0

# IPv6 Privacy Extensions (RFC 4941)
net.ipv6.conf.all.use_tempaddr = 0
net.ipv6.conf.default.use_tempaddr = 0

方案2:在ip addr add命令执行时增加nodad标识:

1
ip addr add 2000::10:18/128 dev eth0 nodad

参考资料

  1. https://blog.clanzx.net/network/ipv6-dad.html