1
sagnitude 15 小时 22 分钟前 现在就可以啊。mac studio m3 ultra 四台联机,2T 内存,轻松部署 kimi k2.5 ,你要是日常用的话 mac mini 部署个小模型就行了
|
2
stinkytofux 15 小时 19 分钟前
完全有可能, 而且这个需求会被极大的推动. 因为不想数据泄露, 不管是个人还是公司, 都有私有部署大模型的需求.
|
4
msg7086 15 小时 9 分钟前
顶尖模型需要非常高的成本来训练
如果顶尖模型开源,谁来付高昂的训练费用 没有资金的支持,模型怎么保持在顶尖位置 得等到了模型瓶颈期了,很难提高了,没有发展了,泡沫破裂了,大批公司倒闭了,那有机会。 |
5
msg7086 15 小时 1 分钟前
顺便一提,家用 NAS 是一种成本很低的东西。不追求产量低的精致成品 NAS ,只是随便搭一下的话,弄台旧电脑装个系统就起来了,笔记本插 USB 硬盘也不是不行。
自建小型 LLM 设备那就是用很大的初期投入换很低的性能或质量。 现在家用级别你配置拉满 128GB 统一内存 AMD AI 平台也就跑 70B-120B 规模的模型。 差不多相当于一个 Gemini 3.0 Flash 的水平,但后者现在的运行速度是本地部署的 10 倍以上了。 |
6
bigmomo 14 小时 39 分钟前
恐怕得十年起步
|
7
yukinotech 14 小时 15 分钟前
把模型刻在内存里,把模型推理结构刻到芯片里,已经有了
|
8
unusualcat 13 小时 52 分钟前
现在家用级别你配置拉满 128GB 统一内存 AMD AI 平台也就跑 70B-120B 规模的模型。
家用 NAS 的 AMD CPU 怎么能跑得起来 70-120B 的模型呢? 我笔记本 GTX 1060 6GB 独立显存,40GB RAM ,ollama 本地跑 8b 的模型都勉强啊,只能说能用。速度明显感觉卡慢 |
9
lujiaosama 13 小时 44 分钟前
@yukinotech 专用硬件?相当于一个固化版本的本地大模型? 如果价格足够便宜确实是值得考虑的.
|
10
jackOff 12 小时 58 分钟前
@yukinotech 这个好像有缺陷,无法升级,只能不停的买新的硬件
|
11
dajj 12 小时 45 分钟前
直接调接口就行了,何必非得本地运行模型。 如果你担心隐私,找个不要你隐私的,比如 cloudflare
|
12
raysonlu 12 小时 0 分钟前
这么说吧,80 年前第一台计算机有差不多 4 个教室大,而当时的计算机甚至还不能玩贪吃蛇和扫雷。照这么看还是有盼头的。
|
13
gpt5 11 小时 46 分钟前 或许 ai 更像电力,我们没必要每个人都开一个发电厂。
|
14
ffLoveJava 11 小时 38 分钟前
nas 的普及得益于 前几年存储的白菜价 以及监管的铁拳。 要是能把国产芯片的算力匹敌英伟达 a 再加上 llm 被限制到全是敏感词 那铁定 llm paas 产品大兴
|
15
JoshTheLegend 11 小时 13 分钟前
有的有的,四台 “8+512” 的 Mac Studio 串在一起的小推车了解一下
|
16
xclimbing 11 小时 4 分钟前
只要出了 AI 专用的芯片,这些都不是事儿。现在是在发展期,就跟手机刚推出来那会儿类似。将来这玩意儿就是一个基础设备和基础服务。就跟你现在买个 VPS 需要的存储服务或者数据库服务差不多。而且,我觉得时间不会太长,10 年应该就差不多了。
|
17
clemente 10 小时 11 分钟前
@xclimbing asic 芯片这玩意 基本是年抛 你会买?
过三年基本模型就跑不了了, 要么 kernel 报错 要么慢的要死 变成鸡肋 也就是数据中心的甲方会有乙方技术支持优化 to c 的玩家还是算了 |
19
xziar 7 小时 13 分钟前
家用 NAS 能比得上数据中心的存储服务器吗?不要对本地部署开源模型有什么不切实际的幻想……
硬件再发展,软件(模型)也会跟着吃掉这部分提升的。 比如现在头部开源模型 500B 以上的规模,要保持智力得 256G 的内存,怎么想也做不到大众化,如果要提升速度,还得上 256G 的显存。 但是放低要求的话,最近的 qwen3.5 35b-a3b ,q4 量化(去掉视觉部分)只要 4G 显存+家用级内存就能跑差不多 20t/s ,这就跟家用 NAS 的定位比较接近了。 |
20
likooo125802023 6 小时 57 分钟前
|
21
uncleroot 4 小时 33 分钟前
可能得等到有比较成熟的 ASIC 的 AI 加速卡才比较划算。
|
22
zhy0216 2 小时 34 分钟前 via Android
英伟达去年收购了个公司专门做推理加速的
过几天发布可以看看 |
23
defaw 2 小时 24 分钟前
qwen3.5 30b 的模型操作浏览器 mcp 执行一些动作成功率已经可以了,我实测让他帮我去 xx 网站看头条是什么,发评论等等都能成功。部署 30b 的模型一张 4090 足以
|
24
ershierdu 2 小时 10 分钟前 via Android
取决于你对顶尖模型的定义
- 此刻的顶尖模型:几乎是 100%的事,我感觉用不了几年 - 与彼时的顶尖模型一致:我觉得很难,除非硬件算力不是瓶颈了(也就是云端模型被其他因素限制住了,性能过剩了) |
25
galenzhao 2 小时 3 分钟前
gb10
|