都 2026 年了，为什么还有人觉得 AMD 比 Nvidia 更适合部署本地大模型？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

五一节假日期间，有一个同事想本地部署大模型，在群里询问，我们都给他推荐了 Nvidia 的卡，结果他去刷 B 站，选择了 AMD AI MAX+ 395 。

难道小白真的就这样被割韭菜吗？

大模型

部署

AMD

115 replies • 2026-05-06 20:18:17 +08:00

1 2

❮

❯

101

mashimaroinfo1

4h 32m ago

@Vaspike 说这话的人目前正被唾骂, 安徽都不敢给它建塑像。

102

c0xt30a

4h 11m ago

我猜 OP 或者给推荐的同事可能混过卡吧，给出的方案超出预算太多了。
即使年入过百万了，买 NV 系列的硬件部署本地大模型玩也是需要考虑下的。

103

simo

4h 5m ago

还真考虑过 amd 这个方案，主要是价格和功耗，2w 左右，96G 显存，打算纯推理，能部署 glm4.7 flash ，qwen3.6 27B, 跑到 50t/s 就够了。

不知道有这套方案的 v 友，效果怎么样？

104

0xC000009F

4h 5m ago

@babymonster #87 如果是你付钱的话你让我买啥那我就买啥

105

babymonster

3h 53m ago

@0xC000009F 买一个能用了，不需要怎么折腾的，最好是有售后技术支持

106

squarefong17

3h 37m ago

@simo qwen 的 27B 不是 MoE ，就算是 int4 量化也跑不到 50t/s ，任何带宽 200-300GB/s 的机器都不可能，不管你是苹果还是 NV 还是 AMD ，这个价位你能选的，M5 pro 、DGX 、jetson orion 都是四通道 LPDDR5(x)，带宽带宽上限锁死了。这种机器能跑到 30-50tokens 的是 35B-A3B 这种（这个数是 395 和 jetson orion 实测），只激活 3B 、5B 的。如果你真的只考虑 27B 这个规模，买张 48G 的 N 卡更合适，不怕炸的话，4090 48G 了解一下，1000GB 大带宽

107

fcten

3h 4m ago

@babymonster 前半句不适合个人用户看不见？那你咋不给你同事推荐 H100 、H20 呢？预算不够 A100 也行啊？

108

liubaicai

57 mins ago

@xtreme1 hahaha xiaosile

109

obeyatonce

51 mins ago via Android

可能他的需求只是用，而非自己训练，市面上的 ai+395 的机器出厂基本都自带配置好的 ai 软件了，对于不了解的人肯定是直接买这种成品更省心

110

leo72638

48 mins ago via iPhone

NV 好是好，就是太贵了，便宜的卡 VRAM 太少了，大点的模型根本跑不了。相对而言大 VRAM 的 395 便宜不少，速度慢点但是起码能跑。

111

greygoo

35 mins ago

@Gemini4422335 #3 不了内存你想多了

112

deplives

26 mins ago

@xtreme1 都怪你，给 op 整破防了都

113

greygoo

24 mins ago

有没有可能就是 mac studio 买不到呢？
为什么适合部署本地大模型要考虑英伟达的卡，现在怎么多 Moe 瓶颈在内存上面，当然是选择 AMD AI MAX+ 395 或者 mac studio 。这个价位不用考虑 Nvidia Jetson Orin 64GB 、Nvidia Jetson Thor T5000 、Nvidia DGX spark ，都是同样的内存带宽。更高的带宽可以选 Mac m3 ultra 但是买不到。所以 395 算是个最优解了。如果要微调或者做其他魔法可能才考虑 nvidia 吧，但是这些任务也可以拿到云上。再说了 AMD AI MAX+ 395 现在又不是不能做微调了，现在也有 wsl 的驱动

，可以装 windows 兼顾游戏。

说实话啊，要是 thor 上面不是那 273GB/s 的带宽，都会无脑选 nvidia 的。

114

ntdll

12 mins ago

从某种意义上来说，这种选择也没毛病，比如要跑个 70B 甚至更大的模型，民用的 nVidia 卡已经无法满足，专业卡的价格也已经上天。而 AMD/Mac 这类统一内存的架构，至少能跑起来，虽然速度比不上纯显存，但是依旧比炸显存后，用内存来中转的情况下，快的多。

这类产品就是在民用的价格下，提供了一个能运行本地大模型的选择。

115

Tony8Finet

5 mins ago via Android

@94

1 2

❮

❯