多台 GPU 之间怎么组网互联？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

比如要部署 deepseek 满血版，总不能用一台跑对吧，那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器

好奇问一下，想学习学习

第 1 条附言 · 6 小时 31 分钟前

为什么想了解这个，GPU太贵了，单节点可能都要几十上百万，集群才考虑组网，实践的机会更少了。

现在招人都要求有经验的，不像以前能从初级开始干，有机会从实践中学习。

GPU

互联

部署

17 条回复 • 2026-04-21 23:20:00 +08:00

makictos

PRO

8 小时 0 分钟前

每台机器插八个 cx7 400g 网卡，然后三台机器走 48 口交换机做互联

minami

7 小时 25 分钟前 via Android

关键字：NvLink 、NvSwitch 、InfiniBand

ptstone

7 小时 6 分钟前

网卡互联根本行不通，pcie5 的速度都不够，至少 1Tb/s 这种才能考虑

liaohongxing

7 小时 3 分钟前

有个 gpustack 的项目，据说可以组集群。

https://github.com/gpustack/gpustack

stoneabc

6 小时 58 分钟前

@ptstone ...现在主流集群参数面组网都是走网卡，有啥行不通的

catazshadow

6 小时 55 分钟前 via Android

@stoneabc 延迟要炸的

geekvcn

6 小时 41 分钟前

目前都是 IB 网卡或者雷电网桥，总之带宽越高越好，以太网也行但是效率堪忧

thevita

6 小时 41 分钟前

单台机内 nvlink
跨机器 RDMA 呗

网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内（比如 TP ）
跨 node 通信也需要深度的优化，通过各种 pipeline overlapped 来隐藏延迟

不是搞这个的，仅仅是个人粗浅的理解

mingtdlb

6 小时 38 分钟前

@ptstone #3 gpu 是 smx 的，单节点内 nvlink 没问题，但集群的话，按 1 楼哥 @makictos 说的那样那个是专用卡？然后走 rdma （ ib 或 rocev2 ）。

刚问了下 Gemini ，大概意思服务器安装网卡驱动
ib 的话：需要在一个节点上运行 Subnet Manager (OpenSM) 来管理网络拓扑和分配 LID ，就没了
RoCEv2 的话：配上 ip ，还要优化网络，然后是主机这边 rdma 相关的配置

这么看下来，加上现在有 AI 的辅助，gpu 服务器的集群的部署也没很难？😂

roygong

6 小时 23 分钟前 via iPhone

Infiniband 是一个专门的硬件，有了就可以跨机跑模型

geekvcn

6 小时 21 分钟前

@mingtdlb 连接不要用光缆，用铜缆直通，有专门的直连铜缆，缺点是长度受限仅适用于机器都在单机柜里。不用光缆是因为光电转换会引入额外的开销和延时

neteroster

6 小时 17 分钟前

除了硬件还要考虑并行，dp, ep, tp 啥的，各种调优，infra 没那么简单的

Muniesa

6 小时 12 分钟前 via Android

sglang：在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek
https://www.lmsys.org/blog/2025-05-05-large-scale-ep/

stoneabc

6 小时 3 分钟前

@catazshadow 没那么夸张，现在万卡集群不用 IB 直接走 roce 的都一堆，都是成熟方案了

catazshadow

3 小时 52 分钟前

@stoneabc 真这么夸张，本来推理几十 tps 用了网卡可能就十几 tps 了

COOOOOOde

3 小时 22 分钟前

未来的方案都是上光信号铜缆都不行了, 你炒股的话就知道现在的 CPO 题材有多火了

mingtdlb

2 小时 42 分钟前

@stoneabc #14 搜了一些文章，比较同意，用 roce ，ib 成本太高了。但具体怎么组网还没搜到。。。想看具体的方案细节