1
penisulaS 13 小时 11 分钟前
你本地一般用来跑什么呢?我是 m2max 96G,但一直不知道用来在本地干什么,用了几个本地模型都感觉不如线上的版本
|
2
Hermitist OP @penisulaS 我上面不是说的很清楚吗? https://github.com/TheTom/turboquant_plus 我试过 omlx/ollama/llama, 还是现在这个更节约资源,速度更快, 你这 96G 内存, 我估计跑 100B 以上都没问题吧, 要不你试试? 等你回复.
|
4
xooass 12 小时 37 分钟前
温度怎么样
我在考虑 32G 的 mba 还是 mbp 中,价格就差 3000 ,目前怕跑模型是一直高负载的话,mba 没有风扇一会就顶不住了,没法长期保持,至少 mbp 有风扇 |
5
fe619742721 12 小时 30 分钟前
本地模型效果到底怎么样啊,跟云端比,比如 GLM5 这种,打得过吗
|
6
Sezxy 12 小时 29 分钟前
@fe619742721 #5 想啥,肯定打不过啊,参数量放那里
|
7
Hermitist OP @penisulaS 你说的本地代码模型是什么
@xooass 温度还可以, 直接买 mbp, 还有买 32G 不如买 64G,甚至更多内存的, 因为可以本地跑大模型, 花的钱可以实现 token 只有. @fe619742721 除非硬件配置很高,否则还是大玩具. |
8
xing7673 12 小时 7 分钟前
@penisulaS #1 跑对任务智能要求不高,对要素状况反应不需要高智能,但是需要持续的、可观测的、费 token 的简单场景,比如跑新闻监控、翻译、聊天总结、文件夹分类、邮件分类等等直接任务,也可以跑一些简单的爬虫。
多工具、多 agent 协调的复杂场景确实不能指望本地模型,除非你对你的场景要求写得非常详细,但是仍然有注意力漂移的风险。 |
9
xing7673 12 小时 2 分钟前
晚点我试下 35B 的模型,我强烈建议各位用它, 不是一般的提升效率, 也许不远的月份, 我这种配置可以跑 70B 的大模型也不一定呢, 这样再没有 tokens 焦虑.
-- turbo3 只针对 KV Cache 的量化,不针对模型本身的量化,你的 32g 跑 70b 模型技术上和以前是一样的,只是 turbo3 能帮你拓展上下文宽度 |
10
xiangqiankan 11 小时 41 分钟前
我的 m4 pro 48g 1tb 能跑什么模型
|
11
niubilewodev 11 小时 5 分钟前
@xiangqiankan 32B
|
13
YanSeven 9 小时 53 分钟前
除了玩玩儿,目前想不到本地的 mini 大模型的使用场景,感觉就是纯纯笨蛋,没啥用。
国产商业部署的大模型还经常嫌弃笨蛋,何况自部署的。 |
14
0x0x 9 小时 33 分钟前 via Android
感觉除非有本地开发需求和安全需求,比如需要测试一些功能需要大量 token 和不让联网,否则不如直接订阅来的稳。本地 llm 的质量堪忧啊。
|
15
kenpuluma 9 小时 19 分钟前
Qwen3.5-27B Q3 本身模型权重也就不到 15g ,并没有体现出来什么质的提升吧?
|
16
r6cb 9 小时 9 分钟前
和 vllm 对比过吗
|
17
sampeng 9 小时 7 分钟前 via iPhone
问题是这玩意除了评测啥都干不了啊
|
18
caritasem 9 小时 5 分钟前
生命在于折腾
|