V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
babymonster
V2EX  ›  Local LLM

私有化部署大模型的“终点”是 Mac 还是 Nvidia?

  •  
  •   babymonster · Apr 30 · 2884 views
    自己家里的 5070Ti 跑模型起来太费劲了,用了一下同事的 macbook 顶配版跑模型比 5070Ti 要强一点点,感觉都差不多,所以大佬可以指点下有没有必要搞一个 Mac studio 还是 Nvidia thor 或者 DGX Spark
    25 replies    2026-05-01 11:18:37 +08:00
    frantic
        1
    frantic  
       Apr 30
    mac studio 顶配二手价格都翻倍了
    zenfsharp
        2
    zenfsharp  
       Apr 30
    看部署目的啊。
    如果是自己用,那 Mac 的包容性强,起码能塞得下权重,开得起 context 窗口啊,自己用吐答案慢点就慢点。
    如果是内部多人用,还得是正经显卡啊,只要能跑起来,比 Mac 的处理器强太多了。
    maymay5
        3
    maymay5  
       Apr 30
    看咋用吧,另外看要部署多大参数,Mac 说实话挺慢的,不能发个 hi 当测试用例,上下文强度提高点,Mac 的慢就很明显了
    stimw
        4
    stimw  
       Apr 30   ❤️ 2
    个人场景搞私有化的唯一作用就是涩涩,涩涩的话也不需要参数多大的模型
    penisulaS
        5
    penisulaS  
       Apr 30
    mac 方便堆显存,nv 方便堆算力
    sentinelK
        6
    sentinelK  
       Apr 30
    在显存够用的前提下,显卡的解码能力远大于统一内存方案(不管是 GB10 、AMD MAX+395 ,还是 mac )
    反之,统一内存方案更容易达到更大的内存级别(能跑更大参数的模型)


    所以,如果你要跑快,只能选显卡。
    如果你要选能用,可扩展性,尝试更多模型,只能选统一内存。(为了大参数换显卡,基本上你整台 PC 也都要换)
    sentinelK
        7
    sentinelK  
       Apr 30
    @stimw 个人场景最大的优势是不会暴露隐私。而且有去掉拒绝模块的模型可用(可以忽略道德、法律、伦理等因素)。
    sentinelK
        8
    sentinelK  
       Apr 30
    对了,还忘了一点,到了生产力阶段,家庭用显卡就不现实了。

    因为生产力显卡的噪音非常大。
    mxT52CRuqR6o5
        9
    mxT52CRuqR6o5  
       Apr 30
    现在这些产品都算不上终点,终点是未来出的专门为这个场景打造的硬件
    babymonster
        10
    babymonster  
    OP
       Apr 30
    @stimw 搞涩涩
    liubaicai
        11
    liubaicai  
       Apr 30
    @mxT52CRuqR6o5 那不就是 DGX Spark 么
    andlp
        12
    andlp  
       Apr 30
    噪声大的难以忍受了....
    iorilu
        13
    iorilu  
       Apr 30
    临时用用可以租 gpu 把

    自己随便玩玩没必要专门弄个机器感觉

    现在模型进化太快, 自己完全瞎折腾, 除非你是想学习自己训练, 微调模型
    bwnjnOEI
        14
    bwnjnOEI  
       Apr 30 via iPhone
    带宽太低 略坑 跑跑 moe 还行
    songray
        15
    songray  
       Apr 30
    是 5 年后捡洋垃圾 h20
    mxT52CRuqR6o5
        16
    mxT52CRuqR6o5  
       Apr 30
    @liubaicai #11 哦哦,之前没看清楚以为 OP 在说 5090/H100 这种,Nvidia thor 、DGX Spark 这类产品确实挺可能是「私有化部署」的终点的
    diudiuu
        17
    diudiuu  
       Apr 30
    @mxT52CRuqR6o5
    DGX Spark 是个挫货就不用想了,内存+带宽两个都要盯着
    hutng
        18
    hutng  
       23h 57m ago
    自己玩玩可以 mac ,稍微专业点还是得 NV
    a0210077
        19
    a0210077  
       23h 57m ago
    建议 N 卡,不止能跑大模型,还能用现成的 ComfyUI 包出图出视频
    按照 OP 的配置再往上升主要关注单卡显存大小:价格敏感可以考虑 4080s 32G/4090 48G 的魔改卡,要正品只能 5090 / PRO 5000 / PRO 6000
    a0210077
        20
    a0210077  
       23h 54m ago
    #10 按照这个思路,建议 N 卡的设备,但依旧推荐独立显卡而不是统一内存
    p1094358629
        21
    p1094358629  
       23h 47m ago
    @stimw 求教,怎么搞,这个我觉得很有市场!!
    coefu
        22
    coefu  
       23h 43m ago
    我选 amd ,内存带宽都有。只是没钱买,有钱也买不到。
    rccoder
        23
    rccoder  
       23h 43m ago
    终点是用云端模型🤣
    tootfsg
        24
    tootfsg  
       23h 32m ago via Android
    这个问题很简单
    能拿出 6,7w ,甚至 10w 多人民币买显卡就上 NVIDIA 工作站 pro6000 这种。
    能拿出几十万就上 NVIDIA 服务器显卡。
    2-3-4w ,还想舒服点跑大模型,等上 m5 pro 的 mac mini/studio 。

    5070ti 留着玩 comyui 吧。

    据我所知玩模型有两种
    1 是训练模型,只能上 nvidia 的显卡。
    2 是推理,就是下载别人训练好的模型自己部署使用
    2 这种我建议上 mac ,因为 5070ti 价格还行但显存太鸡肋了,5090 24g cuda 核多但显存太小,价格又翻倍,5090 32g 得摸到 3w 人民币了,cuda 核心更多但显存只是 7000 块钱的 5070ti 翻倍,而且又和 nvidia 工作站显卡价格接近了了。

    能拿的出钱就买 6w 左右一张的 pro6000 这种,只需要看 nvidia 工作站显卡就行了。
    预算低就 3-4w 左右的 m5 mac
    再低就继续用 5070ti 跑 27b 以下的 iq4xs 吧。
    mxT52CRuqR6o5
        25
    mxT52CRuqR6o5  
       6h 35m ago
    @diudiuu 『这类产品』,指的是这个形态,而不是指某个型号
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2481 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 89ms · UTC 09:54 · PVG 17:54 · LAX 02:54 · JFK 05:54
    ♥ Do have faith in what you're doing.