V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Hermitist
V2EX  ›  程序员

切换到 turboquant_plus, 效率真的提升太高了

  •  
  •   Hermitist · 13 小时 17 分钟前 · 1230 次点击
    https://github.com/TheTom/turboquant_plus

    我是 32G M5 的 macbook air, 启用了 Qwen3.5-27B.Q3 的大模型, 内存最高是在 81%,关键我的电脑还跑了一堆其它应用比如同花顺/抖音/邮件/梯子/笔记/chatgpt, 关键是我刚启用, 缓存刚开始建立中, 这个真的是质的提升.

    晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.
    18 条回复    2026-04-02 18:50:44 +08:00
    penisulaS
        1
    penisulaS  
       13 小时 11 分钟前
    你本地一般用来跑什么呢?我是 m2max 96G,但一直不知道用来在本地干什么,用了几个本地模型都感觉不如线上的版本
    Hermitist
        2
    Hermitist  
    OP
       13 小时 0 分钟前
    @penisulaS 我上面不是说的很清楚吗? https://github.com/TheTom/turboquant_plus 我试过 omlx/ollama/llama, 还是现在这个更节约资源,速度更快, 你这 96G 内存, 我估计跑 100B 以上都没问题吧, 要不你试试? 等你回复.
    penisulaS
        3
    penisulaS  
       12 小时 54 分钟前
    @Hermitist 你试过用来跑本地的代码模型吗?我的意思是我试过本地的,感觉比较笨,没达到我的门槛,感觉这些开源的非超大模型还不够聪明
    xooass
        4
    xooass  
       12 小时 37 分钟前
    温度怎么样

    我在考虑 32G 的 mba 还是 mbp 中,价格就差 3000 ,目前怕跑模型是一直高负载的话,mba 没有风扇一会就顶不住了,没法长期保持,至少 mbp 有风扇
    fe619742721
        5
    fe619742721  
       12 小时 30 分钟前
    本地模型效果到底怎么样啊,跟云端比,比如 GLM5 这种,打得过吗
    Sezxy
        6
    Sezxy  
       12 小时 29 分钟前
    @fe619742721 #5 想啥,肯定打不过啊,参数量放那里
    Hermitist
        7
    Hermitist  
    OP
       12 小时 18 分钟前
    @penisulaS 你说的本地代码模型是什么


    @xooass 温度还可以, 直接买 mbp, 还有买 32G 不如买 64G,甚至更多内存的, 因为可以本地跑大模型, 花的钱可以实现 token 只有.


    @fe619742721 除非硬件配置很高,否则还是大玩具.
    xing7673
        8
    xing7673  
       12 小时 7 分钟前
    @penisulaS #1 跑对任务智能要求不高,对要素状况反应不需要高智能,但是需要持续的、可观测的、费 token 的简单场景,比如跑新闻监控、翻译、聊天总结、文件夹分类、邮件分类等等直接任务,也可以跑一些简单的爬虫。
    多工具、多 agent 协调的复杂场景确实不能指望本地模型,除非你对你的场景要求写得非常详细,但是仍然有注意力漂移的风险。
    xing7673
        9
    xing7673  
       12 小时 2 分钟前
    晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.

    -- turbo3 只针对 KV Cache 的量化,不针对模型本身的量化,你的 32g 跑 70b 模型技术上和以前是一样的,只是 turbo3 能帮你拓展上下文宽度
    xiangqiankan
        10
    xiangqiankan  
       11 小时 41 分钟前
    我的 m4 pro 48g 1tb 能跑什么模型
    niubilewodev
        11
    niubilewodev  
       11 小时 5 分钟前
    Hermitist
        12
    Hermitist  
    OP
       11 小时 2 分钟前
    @xing7673 没问题啊, 到时候除了当前的配置可能 kv cache 提升, 还有显存可以直接用 ssd 硬盘扩充的技术.
    YanSeven
        13
    YanSeven  
       9 小时 53 分钟前
    除了玩玩儿,目前想不到本地的 mini 大模型的使用场景,感觉就是纯纯笨蛋,没啥用。
    国产商业部署的大模型还经常嫌弃笨蛋,何况自部署的。
    0x0x
        14
    0x0x  
       9 小时 33 分钟前 via Android
    感觉除非有本地开发需求和安全需求,比如需要测试一些功能需要大量 token 和不让联网,否则不如直接订阅来的稳。本地 llm 的质量堪忧啊。
    kenpuluma
        15
    kenpuluma  
       9 小时 19 分钟前
    Qwen3.5-27B Q3 本身模型权重也就不到 15g ,并没有体现出来什么质的提升吧?
    r6cb
        16
    r6cb  
       9 小时 9 分钟前
    和 vllm 对比过吗
    sampeng
        17
    sampeng  
       9 小时 7 分钟前 via iPhone
    问题是这玩意除了评测啥都干不了啊
    caritasem
        18
    caritasem  
       9 小时 5 分钟前
    生命在于折腾
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   965 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:56 · PVG 03:56 · LAX 12:56 · JFK 15:56
    ♥ Do have faith in what you're doing.