本地部署 GLM-5.2 的门槛太高了，根本玩不起！ - V2EX

Home Sign Up Sign In

智谱最近发布的 GLM-5.2 口碑很好，于是想在算力服务器上试一下，结果发现，门槛太高了，根本玩不起！

前后尝试了两个版本，分别是：

1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

先说一下 UD-Q4_K_XL 量化版本，下载下来的 gguf 文件共 436G ，4 张 H20 （共 560G 显存），编译最新的 llama.cpp 来运行，结果发现只有 20 ～ 30tokens/秒，更别说并发访问了，基本没法用；

然后是 FP8 量化版本，权重文件共 704G ，8 张 H20 （共 1.1T 显存），下载最新的 vllm 来运行，结果如下：

1. 在上下文类型也是 fp8 的情况下，8 张 H20 ，1.1TB 显存，居然无法开启 1m 上下文；
2. 将上下文长度设置为 384k 之后，vllm 启动提示 1.3 个并发，将上下文长度设置为 256k ，vllm 启动提示 2.5 个并发；
3. 输出大概有 50tokens/秒，吐字速度算还可以；
4. 3 个 claude code 同时连接使用，就能感觉到明显卡顿；

从 vllm 的启动日志看，glm-5.2 的缓存架构还是基于 deepseek 3.2 的，显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多！

以上只是对本地部署测试 glm-5.2 的初步印象，劝大家如果没有 h200/b300 级别的装备的话，还是算了吧！😂

24 replies • 2026-06-29 02:41:02 +08:00

1

flypei

PRO

9h 32m ago

网上还有说用 mac studio 部署的，4 张 H20 都玩不转，mac studio 真的行么

2

Hconk

9h 19m ago via iPhone

1

@flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题，token 速度看上下文有多大了，小的话 20 多 TPS 应该能跑，大了估计就几 TPS ，闲鱼有些人卖的自部署接口就是用这个整的

3

shmilypeter

8h 32m ago

@Hconk 咸鱼还有人卖自部署？牛逼，小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

我算过了，自部署这一块靠卖 token 是不可能回本的，自部署扛不住几个并发的。

4

Hconk

8h 26m ago via iPhone

@shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多，1.5T 显存 nv 卡少说两三百万能下来，用 mac 统一显存 512g 十来万一台

5

shmilypeter

8h 10m ago

@Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了，要是按照以前的价格，搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ，供一个十人团队没啥问题的，律所这样的地方是有本地化需求的。

6

uselesswater

7h 29m ago via Android

要是干个满血的下来，那得 200 多万吧！

7

KumaAPI

PRO

7h 26m ago

事实证明不是工作刚需的情况没什么必要本地部署模型使用就算是租服务器开销也不小

8

2658601135zzh

7h 20m ago

自部署太费钱费时间了，有那钱都可以正价充值 api 爽蹬了

9

YaakovZiv

7h 11m ago

以前还能白嫖云主机平台的 GPU 服务器，现在 GPU 服务器热销，已经基本没法白嫖，必须是先有商务合同，才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。

10

damontian

7h 11m ago via Android

现在这个阶段，自己部署是真不划算

11

root71370

6h 53m ago via Android

所以是不是证明官方部署的 api 也是亏本的

12

bwnjnOEI

6h 40m ago via iPhone

没试试 sglang 吗？话说你要想部署生产级响应的需要把所有参数都要搞明白，玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s

13

slowgen

PRO

5h 47m ago

本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ，直接上 NVFP4 量化，真的就一代架构一代神

14

pikay

5h 35m ago

话说上午的 GLM Plan 有人抢得到吗？

15

beginor

OP

5h 19m ago via Android

@uselesswater 按现在的价格趋势，200 万估计不够了

16

beginor

OP

5h 18m ago via Android

@slowgen RTX 6000 Pro 刚出来时 6 万，现在翻倍都不止了

17

beginor

OP

5h 16m ago via Android

@bwnjnOEI sgl 更复杂，虽然有官方的指南，时间有限，只测试了 llama.cpp 和 vllm ，这两个都好熟悉

18

yatseni

4h 54m ago

起步上最新模型，可不是投入大吗

19

raycool

4h 52m ago

现在 H200 贵的离谱

20

emric

4h 36m ago

我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。

21

coefu

3h 56m ago

牛逼，有钱

22

garyalen

2h 3m ago via iPhone

910C 还需要双机 32 卡呢配套得去到 600w

23

MaiGe

1h 16m ago

我女朋友公司本地部署了 GLM5.2 不知道是不是满血

24

felixcode

PRO

49 mins ago

都是买了大内存 mac 后发现没啥用处
于是发帖安慰自己，本地大模型虽然没用，但能保护隐私。

About · Help · Advertise · Blog · API · FAQ · Solana · 873 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 66ms · UTC 19:30 · PVG 03:30 · LAX 12:30 · JFK 15:30
♥ Do have faith in what you're doing.