大家好,关于IB网络故障的6个常见问题很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!
machine-19: [0] Transport/net_ib.cc:839 NCCL WARN NET/IB : 已完成,错误12,操作码0,len 0,供应商错误129 原因:错误12,表明RDMA 网络不可用。
需要分析底层网络为什么被阻塞。
例如:
是否只是网络故障或不正确的pfc 流量控制导致数据包丢失?如果是(2)偶尔失败,可以参考pfc设置规则:《为什么华为云上AI训练必须设置NCCL_IB_TC=128-云社区-华为云》
二、ib_write_bw不通
错误1:
root@tsjsdbd:~# ib_write_bw——————————————————– —– —————RDMA_Write BW Test双端口: OFF 设备: mlx4_0qps 数量: 1 传输类型: IB 连接类型: 使用SRQ 的RC : OFFCQ 审核: 100Mtu : 2048 [B]链接类型: IBMax 内联数据: 0[B]rdma_cm QP : OFFData ex。方法: 以太网——————————————————– ———本地地址: LID0x81 QPN0x160b3 PSN0xa072 RKey0x68010802 VAddr0x007f184171a000远程地址: LID0x35 QPN0xc5a0b PSN0xaa465a RKey0x20010802 VAddr 0 x 007f3ca2b9c000—- ————- ———————————————————————— ——————#bytes #iterations BW 峰值[MB/秒] BW 平均值[MB/秒] MsgRate[Mpps]ethernet_read_keys: 无法读取远程地址Unable读取socket/rdam_cm无法在服务器和客户端之间交换数据错误2:
root@tsjsdbd:~# ib_write_bw -F 29.26.130.185 -d mlx5_5———————————— ——— ———————–RDMA_Write BW Test双端口: OFF 设备: mlx5_5qps 数量: 1 传输类型: IBConnection类型: RC 使用SRQ : OFFPCIe 放宽顺序: ONibv_wr * API : ONTX 深度: 128CQ 审核: 1Mtu : 2048[B]链路类型: 以太网GID 索引: 3Max 内联数据: 0[B]rdma_cm Q Ps : OFFData 前。方法: 以太网———————— ————————————– —————本地地址: LID0x81 QPN0x160b3 PSN0xa072 RKey0x68010802 VAddr0x007f184171a000GID: 00:00:00:00:00:003360003 336000:00:00:2553 3360255:29:26:130:235远程地址: LID0x35 QPN0xc5a0b PSN0xaa465a RKey0x20010802 VAddr0x00 7f3ca2b9c000GID: 00:003 336000:00:00:00:00:00:00:00:255:255:29:26:1303 3360185——– ———————————————————————— ————————————————–#bytes #iterations BW 峰值[ MB/sec] BWaverage[MB/sec] MsgRate[Mpps]Completion with error at clientFailed status 12: wr_id 0 Syndrom0x81scnt=128, ccnt=0Failed to Complete run_iter_bw function success 这表明网络不可用,需要继续分析RDMA 链路。
三、ibv_rc_pingpong不通
错误:
ibv_rc_pingpong -d mlx5_bond_0 -g 3 29.28.195.228本地地址: LID0x0000,QPN0x01417f,PSN0x63d7fa,GID :ffff:29.28.201.21远程地址: LID x0 000,QPN0x00132d,PSN0x8c0a5b,GID :ffff:29.28.195.228超过失败状态传输重试计数器( 12) for wr_id 2parse WC failed 1 表示网络不可用,需要分析IP网络不可用的原因。
四、rping不通
错误1:
rping -c -a 29.28.195.228 -v -C 10cma event RDMA_CM_EVENT_ADDR_ERROR, error -110waiting for addr/route resolution state 1 表示该地址无法连接,需要继续判断IP链接是否打开。
错误2:
rping -c -a 29.28.197.165 -C 10 -vcma event RDMA_CM_EVENT_REJECTED, error 8wait for CONNECTED state 4connect error -1 此Reject 表示连接被拒绝。很简单,因为rping工作时,需要先启动一个服务器端进程,然后尝试发起客户端到服务器端的连接。
所以先启动服务器。
rping -s 29.28.201.211 -v
五、ping不通
错误:
ping 29.28.195.228PING 29.28.195.228 (29.28.195.228) 56(84) 字节数据。来自29.28.204.80 icmp_seq=1 目标主机无法从29.28.204.80 icmp_seq=2 目标主机无法从29.2 到达8.204.80 icmp_seq=3 目标主机无法到达29.28 .204.80 icmp_seq=4 目标主机无法访问^C— 29.28.195.228 ping 统计数据—传输5 个数据包,收到0 个数据包,+4 个错误,100% 数据包丢失,时间4045ms 假设该估计值接近根错误交换机连接一切正常。这基本上是一个路由设置问题:
可用的
# ip route get 29.28.204.80 from 29.28.201.21129.28.204.80 from 29.28.201.211 dev enp137s0f0 uid 0 确认发送报文的网卡是否选择正确。
如果是“同一个网段多个IB网卡”的情况,比如A100或者A800业务,有8个IB网卡,而且都在同一个网段。需要通过策略路由设置“源地址路由”规则来解决各个IP之间的互通问题。参见:《跟唐老师学习云网络》 – RoCE多网卡时,数据包能通过但不能回来- 云社区- 华为云》
六、ARP表不对
如果ping 成功,但rping 不成功。那你就得去最底层看看(你算是被选中的,所以去最底层是错误的)。
通常情况下,学习到的arp表中,一个IP地址对应一张网卡的MAC地址。
如下:
/home/tsj # arp -n | grep 29.28.201.21129.28.201.211 ether 08:c0:eb:8c:10:6d C enp137s0f1 同时检查两端。如果发现某个IP地址,并且学习到了多条不同的arp记录,则说明arp设置不正确。
需要
首先清空arp表,设置arp响应规则。
(1)清除arp表有两种方法:
指定要清除的IP: arp -d 192.168.1.1 清除所有arp:(我们可以直接执行) ip -s -s neighlush all (2)设置arp响应规则:
sysctl -w net.ipv4.conf.all.arp_ignore=1sysctl -w net.ipv4.conf.all.arp_announce=2 表示只回复对应网卡的arp响应。
设置好后,再次ping确认双方学习到的arp表是否正确。
原创文章,作者:小su,如若转载,请注明出处:https://www.sudun.com/ask/135335.html
用户评论
冷嘲热讽i
我感觉这篇文章写的太适合我了!最近总是遇到IB网络连接不稳定的问题😓 而且好像真的符合你说的六点症状,幸好找到了解决方法!
有10位网友表示赞同!
西瓜贩子
我的IB系统老是出现各种莫名其妙的问题,有时候完全连不上网,真的很让人头疼哎。不知道是不是这几个原因导致的,得赶紧试试看能不能修复一下了。
有12位网友表示赞同!
呆檬
遇到过防火墙问题确实烦人,总是感觉网络速度慢了很多!幸好最后找到了解决办法,才没被这个问题困扰得太久。
有16位网友表示赞同!
愁杀
说实话,IB网络的问题的确很常见,尤其是我的大学宿舍,各种设备共享网络经常出现拥堵和延迟的情况。这个文章说的蛮有道理的,希望以后遇到类似问题的时候可以参考一下!
有20位网友表示赞同!
挽手余生ら
作为网瘾青年,对IB网络稳定性要求还是很高的啊,特别是玩游戏那一方面,延迟高简直让人抓狂!所以一直很注意观察网络连接状态,避免出现各种不畅情况。
有6位网友表示赞同!
野兽之美
这篇文章说得太对了!我最近才发现自己也遭遇了这些问题。看来要仔细检查一下自己的网络配置,确保一切都正常运行。
有19位网友表示赞同!
巷口酒肆
这六个问题我遇到的都有啊!感觉我的IB系统总是饱受折磨😅 好像没见过这么频繁的网络连接问题的人…
有9位网友表示赞同!
箜明
我觉得有些问题确实很常见,但某些原因分析的不够详细。比如防火墙问题需要更详细解释一下具体操作方法吧?
有17位网友表示赞同!
聽風
这些问题的确困扰了我很久!感谢作者这篇文章的详细解答,现在我终于明白问题的根源在哪里了,可以好好解决一下问题了!
有13位网友表示赞同!
容纳我ii
对IB网络不太了解,文章讲解很清晰通俗易懂,非常适合新手入门学习。
有12位网友表示赞同!
揉乱头发
遇到这些问题可真是倒霉人!还好作者总结了原因和解决方法,让我感觉很多困惑都得到了解答!真感谢这位博主!
有18位网友表示赞同!
寒山远黛
这篇文章写的很棒!把一些技术难点用通俗易懂的语言解释的很清楚,让我受益匪浅!希望以后还能看到更多针对IB网络问题的文章!
有9位网友表示赞同!
若他只爱我。
虽然我也遇到了很多IB网络问题,但我觉得这篇文章的问题描述不够全面,缺少一些实际案例分析。希望能更加实用性!
有14位网友表示赞同!
厌归人
IB网络总是那么脆弱和不稳定,真是让人抓狂! 希望这个帖子能帮助我解决一部分问题,让我能够正常使用网络!
有20位网友表示赞同!
風景綫つ
我平时很少用到IB网络系统,对于这些问题其实不太了解,文章可以更注重对技术细节的讲解!
有19位网友表示赞同!
眼角有泪°
这个博文很有帮助,我已经尝试了其中一些方法,网络连接确实稳定了许多!感谢作者分享经验!
有15位网友表示赞同!
一笑抵千言
文章很好,但是对于某些问题,我觉得可以再详细说明一下解决步骤,这样更容易理解和操作。
有7位网友表示赞同!