beginor
V2EX  ›  Local LLM

本地部署 GLM-5.2 的门槛太高了,根本玩不起!

  •  
  •   beginor · 9h 38m ago · 2702 views
    智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!

    前后尝试了两个版本,分别是:

    1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
    2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

    先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;

    然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行,结果如下:

    1. 在上下文类型也是 fp8 的情况下,8 张 H20 ,1.1TB 显存,居然无法开启 1m 上下文;
    2. 将上下文长度设置为 384k 之后,vllm 启动提示 1.3 个并发,将上下文长度设置为 256k ,vllm 启动提示 2.5 个并发;
    3. 输出大概有 50tokens/秒,吐字速度算还可以;
    4. 3 个 claude code 同时连接使用,就能感觉到明显卡顿;

    从 vllm 的启动日志看,glm-5.2 的缓存架构还是基于 deepseek 3.2 的,显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多!

    以上只是对本地部署测试 glm-5.2 的初步印象,劝大家如果没有 h200/b300 级别的装备的话,还是算了吧!😂
    24 replies    2026-06-29 02:41:02 +08:00
    flypei
        1
    flypei  
    PRO
       9h 32m ago
    网上还有说用 mac studio 部署的,4 张 H20 都玩不转,mac studio 真的行么
    Hconk
        2
    Hconk  
       9h 19m ago via iPhone   ❤️ 1
    @flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题,token 速度看上下文有多大了,小的话 20 多 TPS 应该能跑,大了估计就几 TPS ,闲鱼有些人卖的自部署接口就是用这个整的
    shmilypeter
        3
    shmilypeter  
       8h 32m ago
    @Hconk 咸鱼还有人卖自部署?牛逼,小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

    我算过了,自部署这一块靠卖 token 是不可能回本的,自部署扛不住几个并发的。
    Hconk
        4
    Hconk  
       8h 26m ago via iPhone
    @shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多,1.5T 显存 nv 卡少说两三百万能下来,用 mac 统一显存 512g 十来万一台
    shmilypeter
        5
    shmilypeter  
       8h 10m ago
    @Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了,要是按照以前的价格,搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ,供一个十人团队没啥问题的,律所这样的地方是有本地化需求的。
    uselesswater
        6
    uselesswater  
       7h 29m ago via Android
    要是干个满血的下来,那得 200 多万吧!
    KumaAPI
        7
    KumaAPI  
    PRO
       7h 26m ago
    事实证明不是工作刚需的情况没什么必要本地部署模型使用 就算是租服务器开销也不小
    2658601135zzh
        8
    2658601135zzh  
       7h 20m ago
    自部署太费钱费时间了,有那钱都可以正价充值 api 爽蹬了
    YaakovZiv
        9
    YaakovZiv  
       7h 11m ago
    以前还能白嫖云主机平台的 GPU 服务器,现在 GPU 服务器热销,已经基本没法白嫖,必须是先有商务合同,才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。
    damontian
        10
    damontian  
       7h 11m ago via Android
    现在这个阶段,自己部署是真不划算
    root71370
        11
    root71370  
       6h 53m ago via Android
    所以是不是证明官方部署的 api 也是亏本的
    bwnjnOEI
        12
    bwnjnOEI  
       6h 40m ago via iPhone
    没试试 sglang 吗?话说你要想部署生产级响应的需要把所有参数都要搞明白,玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s
    slowgen
        13
    slowgen  
    PRO
       5h 47m ago
    本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ,直接上 NVFP4 量化,真的就一代架构一代神
    pikay
        14
    pikay  
       5h 35m ago
    话说上午的 GLM Plan 有人抢得到吗?
    beginor
        15
    beginor  
    OP
       5h 19m ago via Android
    @uselesswater 按现在的价格趋势,200 万估计不够了
    beginor
        16
    beginor  
    OP
       5h 18m ago via Android
    @slowgen RTX 6000 Pro 刚出来时 6 万,现在翻倍都不止了
    beginor
        17
    beginor  
    OP
       5h 16m ago via Android
    @bwnjnOEI sgl 更复杂,虽然有官方的指南,时间有限,只测试了 llama.cpp 和 vllm ,这两个都好熟悉
    yatseni
        18
    yatseni  
       4h 54m ago
    起步上最新模型,可不是投入大吗
    raycool
        19
    raycool  
       4h 52m ago
    现在 H200 贵的离谱
    emric
        20
    emric  
       4h 36m ago
    我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。
    coefu
        21
    coefu  
       3h 56m ago
    牛逼,有钱
    garyalen
        22
    garyalen  
       2h 3m ago via iPhone
    910C 还需要双机 32 卡呢 配套得去到 600w
    MaiGe
        23
    MaiGe  
       1h 16m ago
    我女朋友公司本地部署了 GLM5.2 不知道是不是满血
    felixcode
        24
    felixcode  
    PRO
       49 mins ago
    都是买了大内存 mac 后发现没啥用处
    于是发帖安慰自己,本地大模型虽然没用,但能保护隐私。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   873 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 66ms · UTC 19:30 · PVG 03:30 · LAX 12:30 · JFK 15:30
    ♥ Do have faith in what you're doing.