公司想搞本地化算力部署 deepseek coder v2 给技术用，听到 AMD 锐龙 AI Halo 也不算贵，可行么

cheman · 2026-06-16T06:47:27Z

AMD 锐龙 AI Halo 2.7w rmb ，现在每月花在 token 上的钱其实感觉是蛮多的，有这样的一个方向性的想法，不知道会有什么坑，或者问题，有人懂么，专业点的看法。

算力

本地化

部署

34 replies • 2026-06-17 03:33:03 +08:00

1

afkool

12h 54m ago

要是我的公司就公司自己开 pro20 。。

2

javalaw2010

12h 52m ago

4

按照现在的说法，这玩意儿是上古模型了吧，部署这玩意儿干啥，形成不了生产力的话不就是在浪费钱吗

3

xtreme1

12h 52m ago

1

halo 主要是算力低 encode prefill 都很慢
其次也没涨到这么贵

这个规模的模型能不能满足你需求, 可以先租赁个云算力试一下

4

sentinelK

12h 50m ago

1

1 、这个模型真的能符合你的需求吗？
2 、这个设备是统一内存，所以速度非常感人。你能忍受你每轮对话 1 分钟 AI 才吐字，10 分钟给你改一行代码吗？如果能忍你就可以冲。

5

zhangaugust

12h 49m ago

这模型也太老了吧

6

ntdll

12h 43m ago

1

你先买 100 块钱的这个模型 API ，给你的技术用一下，然后听听他的反馈，你就知道答案了。如果你都找不到这个模型的购买，那么答案你应该也已经知道了。

7

cheman

OP

12h 40m ago

@javalaw2010 谢谢解答。感觉 deepseek v4 pro 好像不太现实，或者部署 deepseek v4 flash 比 deepseek coder v2 更好？或者有什么更好的模型推荐或者硬件搭配方案？

8

cheman

OP

12h 40m ago

@ntdll 谢谢解答。

9

op351

12h 39m ago

1

现阶段本地部署除了能保证 100%数据隐私合规可控，有什么其他优势？
而且真要合规的话和国内算力或者模型提供商签正规合同就好了，写好条款保证不收集任何数据。

10

fcten

12h 35m ago

2

H20 整机大概 200 万，可以部署几乎所有的顶级开源模型了（如果不是全部的话）。这些钱如果用来采购 claude 的 api ，大概也就够十来个人的部门烧 2 个月。

实在要省钱，RTX PRO 6000 也行，整机估计 100 万吧。AMD AI Halo 这种消费级产品也就个人玩玩，公司还是算了吧。

11

cheman

OP

12h 34m ago

@op351 是的，我们的出发点还是钱的问题，因为每月也花 5-8K 在这上面，如果更便宜的话，是有点心动做本地化的

12

cheman

OP

12h 32m ago

@fcten 嗯嗯，谢谢你专业的解答，给到我具体的价位，现在有了大致清晰的认知。

13

cheman

OP

12h 31m ago

@sentinelK 确实要把这想法放放了

14

jackOff

12h 28m ago

裁员一个员工经费不就有了？一个月才几千费用，总比一个员工上万工资支出好吧

15

emberzhang

12h 26m ago

1

小公司比较合适的目前看来就是 deepseek-v4-flash 才能用且基本够用。但编程需要长上下文，要上下文满载 + 多用户并发还不慢的，性能要求可不低。2.7w 也就一台 GB10 的成本，肯定是不够的

16

xiaomushen

12h 25m ago

这模型的 code 能力，远弱于 qwen3.6 27b

17

xiaomushen

12h 23m ago

@fcten 合规使用 Claude ，确实贵得要命。而且在国内，就算合规使用，也是带些中间灰色环节的

18

jimrok

12h 21m ago

1

先放一放，国产模型刚迈过可用的阶段，后续迭代可能要加速，建议还是找云端供应商，例如租火山或者腾讯的服务，自己建未必便宜。而且算卡的折旧会很快，3 年估计你的算卡就不值钱了。

19

cheman

OP

11h 42m ago

@jimrok ok,ok,ok ，放下这个想法了，非常感谢

20

Lax

11h 2m ago

token 使用是要分级别的。编码和架构设计肯定是用最新的模型。而一些流程性和概括文档之类的任务则可以使用简单模型。
作为一个老运维，看到的事情根本就不是直接去搞替换，而是先考虑怎么分层次做好 token 预算管理、用量监控、使用规范。至于要不要自建以及自建什么模型，到时候都是水到渠成的事。
现在搞 GPU/token 算力，跟以前堆 CPU 内存这些资源是基本一样的。公有云刚发展的时代，自建服务器尚且有些生存空间。现在自建 GPU 算力的风险比以前高不少，搞本地部署除非有其它原因比如所谓的数据隐私

21

ala2008

11h 2m ago

日常开发能用这么多 token ？我感觉我们日常用 cursor 就可以了

22

msg7086

10h 46m ago

我实际的体验来说，一个好的模型哪怕价格是便宜模型的 5 倍也可能是前者最终更便宜。
同时用着 5.5 XH 和 3.5 Flash ，要达到同样的代码质量，前者花费的钱应该更少。
我之前同样做一个重构，3.5 改着改着就漏东西或者写错东西了，5.5 几乎可以一遍过，跑完测试就可以提交了。
如果同样两个人用两个模型做同一个需求，用 3.5 那个人得一遍一遍检查调试迭代，5.5 的那个人一把做完提交就可以摸鱼去了。
自建的话更痛苦，因为 token 输出速度更低，你要同时忍受更低的智力和更低的速度。别人 20 分钟干完的活你可能要干一整天，还要吃降血压的药。