AI Fabric选Ethernet还是InfiniBand?

多客科技 · 发表于 2025-12-7 10:21

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

作者：微信文章
为什么互连选择对AI集群至关重要？

引言：训练现代AI集群不仅关乎强大的GPU，连接这些GPU的网络往往决定了集群的性能好坏。如果网络速度太慢或不稳定，GPU将花费更多时间等待数据，而不是进行计算。这就是为什么选择合适的互连系统，即连接服务器、存储设备和加速器的架构至关重要。当前，业界主要的两种选择是：1）以太网：通用网络标准，广泛应用于从家庭到超大规模数据中心。2）InfiniBand（IB）：诞生于高性能计算（HPC）领域，优化极低延迟和无损通信。两者都能构建AI集群，但它们的行为和适用场景截然不同。以太网（RoCE）与IB对比以太网

IB

1979~2024年，主流网络技术的速率发展轨迹简而言之，以太网——无处不在、灵活、性价比高。IB——专用化、高性能、专为集群打造。IB与以太网（RoCE）两种网络技术对比如下表所示。

*表格中IB与RoCE的点到点延迟分别为2us和5us，此性能值来自第三方研报。核心要点：IB速度更快且更具可预测性，但以太网能满足更广泛的需求，并且拥有更广泛的供应商支持。两种网络在AI集群中的应用场景以太网

IB

以太网与IB技术均可为AI集群提供网络支撑，但二者的优势与适用场景有所不同。以太网：生态系统完善、成本更低且易于集成。非常适合中小企业、企业级AI业务以及推理场景。IB：具备超低延迟、确定性传输的特性，专门针对超大规模AI训练与HPC场景进行了优化。总结技术选型的核心取决于集群规模、预算成本以及工作负载对网络的敏感程度。若要实现最佳性能，需保障端到端一致性——网卡、交换机、光模块及线缆的规格必须完全匹配。

英特尔Omni-Path继承者Cornelis，将推出800G多模态网卡博通Tomahawk交换芯片路线图博通推出业界800G AI 以太网网卡Thor Ultra，支持UEC规范【Hot Chips 2025】NVIDIA 展示 CX-8 超级网卡NVIDIA ConnectX 系列网卡，IB模式切换成EthernetSIGCOMM 2025：RDMA网络方向论文Hot Chips 2025会议资料(全)下载AMD Pensando Pollara 400G网卡进入部署阶段超级以太网调研报告（附下载）

账号		自动登录	找回密码
密码			注册

AI Fabric选Ethernet还是InfiniBand?

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块