配置为 m1max 64g+1T ,最近搞了个小小龙虾,消耗的 token 太快了,打算部署各本地模型,一来了解了解,而来是想做下简单的翻译、文档处理的工作。能有合适的本地模型吗?
1
zenfsharp Apr 30
Gemma4-31b-it-q8_0 ,记得开满 256Context 窗口,也用 Q8 质量压缩。
|
2
huaweii Apr 30 via Android
qwen3.6 系列,你 64gb 的选择挺多的。你去 hf 上把你的型号输入进去让他给你选个合适的压缩模型就行
|
3
xFrye Apr 30
https://ollama.com/blog/mlx 看看这个合适不
|
4
sentinelK Apr 30
mlx 的 qwen3.6-35B-A3B 试试看
|
6
rrubick Apr 30 via iPhone
用 LM sutio ,它会根据你的内存大小标记合适的模型。注意由于模型需要常驻内存,不要卡着上限
|
9
ahdw 20h 2m ago
建议看看 oMLX 的社区评测,不要用 llama.cpp ,浪费苹果硬件
|