V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
zsj1029
V2EX  ›  OpenAI

qwen3.6 27b 本地编码测试

  •  
  •   zsj1029 · 6h 5m ago · 1552 views
    搞了一上午,本地 a100 40g ,输出也慢 40t/s
    大概的提示词劳力士风格,罗马数字,月相日历,高贵典雅


    月相那块搞了好多轮

    结论:
    小参数的模型智力不差,Trae IDE agent 连接本地模型,coding 完全可用
    29 replies    2026-04-27 20:40:12 +08:00
    zsj1029
        1
    zsj1029  
    OP
       6h 1m ago

    是有动画效果的,星星会明暗,上下左右还有钻石闪烁效果,不太明显
    日期,月相跟着时间会变
    Seanfuck
        2
    Seanfuck  
       6h 0m ago
    上下文设置小一点会快些
    zsj1029
        3
    zsj1029  
    OP
       5h 58m ago
    @Seanfuck 目前 128 ,256 也试过,llamacpp 的后端,开始都是快的,多轮会话,kv-cache 累计推理感觉就慢了
    Orangeee
        4
    Orangeee  
       5h 45m ago
    看着效果还凑合,一般任务应该够用
    pedclub
        5
    pedclub  
       5h 12m ago
    ![qwen 3.5]( https://img.cdn1.vip/i/69ef0fc713d8b_1777274823.webp)
    ![qwen 3.6]( https://img.cdn1.vip/i/69ef0fca7692e_1777274826.webp)
    3.6 进步挺大的
    sentinelK
        6
    sentinelK  
       4h 44m ago
    qwen3.6 35B A3B 的跑分还是挺好看的,智力和满血 DeepseekV3.2 不相上下,但 Agent 能力比 DeepseekV3.2 强很多。和我在 hermes agent 上的体感一致。

    从这个角度看,最近这一年,localLLM 的进步,比大模型大很多。
    我用家里的 8GVRAM ,64GBRAM 的老爷机用 llama.cpp 跑了一下 Q4 量化,驱动 hermes agent 的普通业务没什么问题,就是有点慢。在--on fit 配置下,大概是 20 多 token 每秒。

    等 M5 MAX 的 mac studio 上线,我也打算买一台。
    sentinelK
        7
    sentinelK  
       4h 43m ago
    主要是 localLLM 强大之后,Agent 玩法才真正的被盘活。
    隐私/便利的鱼熊悖论也就被打破了。
    zsj1029
        8
    zsj1029  
    OP
       4h 13m ago
    @sentinelK 是的,今年是 agent 大规模应用的元年
    wumoumou
        9
    wumoumou  
       3h 37m ago
    好厉害,能不能做成 API 卖钱
    mgsv2047
        10
    mgsv2047  
       3h 22m ago
    为啥我用 windows 的 lm studio 跑这个模型,又慢又蠢? 4090D + 32g 内存
    zsj1029
        11
    zsj1029  
    OP
       3h 21m ago
    @mgsv2047 我这是公司的 a100 ,设备不行吧,还得是专业卡,35b 的那个专家模型,能跑 120t/s
    evan1
        12
    evan1  
    PRO
       3h 20m ago
    a100……门槛还是太高了。
    zsj1029
        13
    zsj1029  
    OP
       3h 16m ago
    @evan1 我不知道啊,80g 的,咸鱼问的 5w 不到,2 块 5090 ?算力翻倍至少吧
    furlxy
        14
    furlxy  
       3h 14m ago
    为啥都在用钟表、天气来测试?
    zsj1029
        15
    zsj1029  
    OP
       3h 13m ago
    @furlxy 因为那个二叉树,很简单就过了,这个至少有点工作场景,写后端更没问题,比前端还快,毕竟不用调样式
    darrh00
        16
    darrh00  
       3h 12m ago
    vscode 上有没有好用的连接本地模型的插件?
    evan1
        17
    evan1  
    PRO
       3h 11m ago
    @zsj1029 #13 又学到了,咸鱼真厉害
    zsj1029
        18
    zsj1029  
    OP
       3h 5m ago via iPhone
    @sentinelK mac 速度也慢,只能能加载大模型,显存带宽制约的,a100 。1.8t ,mac 只有 700g 好像
    zsj1029
        19
    zsj1029  
    OP
       3h 5m ago via iPhone
    @darrh00 cline 最舒服,其实有很多,都可以下载试试
    sentinelK
        20
    sentinelK  
       3h 3m ago
    @mgsv2047 试试用 llama.cpp 来运行试试,上下文开 128K ,带-- fit on 参数
    zsj1029
        21
    zsj1029  
    OP
       2h 58m ago
    @sentinelK 就是 llamacpp 跑的,fiton ,显存不够,cpu 卸载,a100 可以全部加载到显卡的,不需要,其次开启 q4 kv-cache 量化后,能跑更多并发,更省显存
    kenpuluma
        22
    kenpuluma  
       1h 54m ago
    这个不算小模型了吧,活跃参数量比 qwen3-235b 都大~
    zsj1029
        23
    zsj1029  
    OP
       1h 45m ago via iPhone
    @kenpuluma 确实,表达的意思就是,开源本地模型发展超预期,本地搭建不再是玩具。评测赶上了 opus 4.5
    listenerri
        24
    listenerri  
       1h 37m ago via Android
    @darrh00 #16 vscode 上用 unify chat provider 插件接自定义模型体验不错
    peyppicp
        25
    peyppicp  
       1h 30m ago
    Trae 是怎么链接本地 LLM 的?我看免费版都不能指定本地模型了
    stefwoo
        26
    stefwoo  
       1h 25m ago
    Qwen3.6 A35B-A3B 4bit 在我的 3090 下运行也飞快啊
    kenpuluma
        27
    kenpuluma  
       1h 7m ago
    @zsj1029 今年年后是真的感觉国产开源模型一个比一个更好用了。
    zushi000
        28
    zushi000  
       1h 5m ago
    满血版吧
    sentinelK
        29
    sentinelK  
       1 min ago
    @stefwoo 这回的 27B 每次执行都是 27B 满参数,所以比 35B A3B 运行速度更慢,但是智商评分更高。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3400 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 78ms · UTC 12:41 · PVG 20:41 · LAX 05:41 · JFK 08:41
    ♥ Do have faith in what you're doing.