分享个自己在用的玩具

前段时间 qwen3.5 发布的时候，试着用 4070 跑 9b 版本，发现配合 openclaw 玩都玩不起来，而且上下文只能开到大概 32k 左右。正好这段时间没什么好折腾的了（ NAS 和软路由已经稳定运行中），所以买了两块 3060 12g 和 x99 的大板和 E5 3673V3 ，另外配了个 1200w 的电源，内存用主力机拆下来的 16x2 （主力成二奶了）。
正巧赶上 qwen3.6 发布，试着跑了 27b 和 35b 模型，最终使用 mudler/Qwen3.6-35B-A3B-APEX-GGUF 模型，开 128k 上下文，输入 2000tps ，输出在 100tps ，当然上下文达到一定程度就开始胡扯降速了。
现在配合 hermes agent ，感觉可玩性挺高的，作为代码小白，可以帮我写一些小的脚本
折腾完索然无味还能出掉回点血，相当于花个千把块钱让自己又爽玩了一段时间。

模型

硬件

折腾

6 replies • 2026-06-17 21:37:23 +08:00

thinkingpey1989

17h 35m ago

玩玩还可以，真想有生产力还是得上云端大模型

mountainl

17h 9m ago

@thinkingpey1989 就是玩玩

pencilq

16h 53m ago

B 站有佬两张 2080ti 跑 27b 100+ tps

两块显卡+桥接器+小主机，一共 4500 块，差不多 3090ti 一半的价格，让 27B/31B 稠密模型纵享 100tok/s 单并发生成速度，实现了 262K 满血上下文，TQ4NC 最大 1M 上下文

https://www.bilibili.com/video/BV1nVVr6QEFq

Cruzz

16h 43m ago

以后显卡还是还给游戏佬吧，真要跑模型还得统一内存的小主机。

mountainl

16h 41m ago

@pencilq v100 和 20 系是不是不支持 fa 什么的？我不太懂，就没敢上

coefu

6h 18m ago

这个玩游戏很爽了。