比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器
好奇问一下,想学习学习
为什么想了解这个,GPU太贵了,单节点可能都要几十上百万,集群才考虑组网,实践的机会更少了。
现在招人都要求有经验的,不像以前能从初级开始干,有机会从实践中学习。
1
makictos PRO 每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联
|
2
minami 7 小时 25 分钟前 via Android
关键字:NvLink 、NvSwitch 、InfiniBand
|
3
ptstone 7 小时 6 分钟前
网卡互联根本行不通,pcie5 的速度都不够,至少 1Tb/s 这种才能考虑
|
4
liaohongxing 7 小时 3 分钟前
|
6
catazshadow 6 小时 55 分钟前 via Android
@stoneabc 延迟要炸的
|
7
geekvcn 6 小时 41 分钟前
目前都是 IB 网卡或者雷电网桥,总之带宽越高越好,以太网也行但是效率堪忧
|
8
thevita 6 小时 41 分钟前
单台机内 nvlink
跨机器 RDMA 呗 网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内(比如 TP ) 跨 node 通信也需要深度的优化,通过各种 pipeline overlapped 来隐藏延迟 不是搞这个的,仅仅是个人粗浅的理解 |
9
mingtdlb OP |
10
roygong 6 小时 23 分钟前 via iPhone
Infiniband 是一个专门的硬件,有了就可以跨机跑模型
|
12
neteroster 6 小时 17 分钟前
除了硬件还要考虑并行,dp, ep, tp 啥的,各种调优,infra 没那么简单的
|
13
Muniesa 6 小时 12 分钟前 via Android
sglang:在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek
https://www.lmsys.org/blog/2025-05-05-large-scale-ep/ |
14
stoneabc 6 小时 3 分钟前
@catazshadow 没那么夸张,现在万卡集群不用 IB 直接走 roce 的都一堆,都是成熟方案了
|
15
catazshadow 3 小时 52 分钟前
@stoneabc 真这么夸张,本来推理几十 tps 用了网卡可能就十几 tps 了
|
16
COOOOOOde 3 小时 22 分钟前
未来的方案都是上光信号 铜缆都不行了, 你炒股的话 就知道现在的 CPO 题材有多火了
|