找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

查看: 119|回复: 0

AI Fabric选Ethernet还是InfiniBand?

[复制链接]
发表于 2025-12-7 10:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
为什么互连选择对AI集群至关重要?
w1.jpg
引言:训练现代AI集群不仅关乎强大的GPU,连接这些GPU的网络往往决定了集群的性能好坏。如果网络速度太慢或不稳定,GPU将花费更多时间等待数据,而不是进行计算。这就是为什么选择合适的互连系统,即连接服务器、存储设备和加速器的架构至关重要。当前,业界主要的两种选择是:1)以太网:通用网络标准,广泛应用于从家庭到超大规模数据中心。2)InfiniBand(IB):诞生于高性能计算(HPC)领域,优化极低延迟和无损通信。两者都能构建AI集群,但它们的行为和适用场景截然不同。以太网(RoCE)与IB对比以太网
    创建于20世纪70年代,如今是几乎所有网络的默认选择;拥有商用硬件、广泛的生态系统和庞大的供应商基础;从1G扩展到800G,1.6T以太网标准也在规划中;通过扩展RoCE,支持RDMA协议。

IB
    于20世纪90年代末为HPC集群设计;注重超低延迟、确定性性能;生态系统主要由英伟达(迈络思)推动;当前速度:200G→400G→800G(HDR、NDR、XDR);硬件原生支持RDMA协议。

1979~2024年,主流网络技术的速率发展轨迹简而言之,以太网——无处不在、灵活、性价比高。IB——专用化、高性能、专为集群打造。IB与以太网(RoCE)两种网络技术对比如下表所示。
w2.jpg
*表格中IB与RoCE的点到点延迟分别为2us和5us,此性能值来自第三方研报。核心要点:IB速度更快且更具可预测性,但以太网能满足更广泛的需求,并且拥有更广泛的供应商支持。两种网络在AI集群中的应用场景以太网
    成本敏感项目:初创企业、预算有限的研究实验室;推理集群:需要吞吐量但不需要纳秒级延迟的工作负载;混合环境:轻松集成现有企业数据中心网络。
IB
    大规模AI训练:数千甚至数万块GPU集群,依赖AllReduce、Alltoall等参数同步的工作负载;高性能计算应用:仿真、基因组测序、天气预报等。
以太网与IB技术均可为AI集群提供网络支撑,但二者的优势与适用场景有所不同。以太网:生态系统完善、成本更低且易于集成。非常适合中小企业、企业级AI业务以及推理场景。IB:具备超低延迟、确定性传输的特性,专门针对超大规模AI训练与HPC场景进行了优化。总 结技术选型的核心取决于集群规模、预算成本以及工作负载对网络的敏感程度。若要实现最佳性能,需保障端到端一致性——网卡、交换机、光模块及线缆的规格必须完全匹配。
w3.jpg

w4.jpg
英特尔Omni-Path继承者Cornelis,将推出800G多模态网卡博通Tomahawk交换芯片路线图博通推出业界800G AI 以太网网卡Thor Ultra,支持UEC规范【Hot Chips 2025】NVIDIA 展示 CX-8 超级网卡NVIDIA ConnectX 系列网卡,IB模式切换成EthernetSIGCOMM 2025:RDMA网络方向论文Hot Chips 2025会议资料(全)下载AMD Pensando Pollara 400G网卡进入部署阶段超级以太网调研报告(附下载)
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-12-13 01:28 , Processed in 0.090613 second(s), 31 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表