如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。
transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
如题,wsl 配 rocm 下,sglang 没跑起来,vllm 跑起来了,但是动不动爆显存,只有跑个 2b 的模型才比较稳定,而且推理首字速度体感感觉比纯用 transformer 还慢。
transformer 我试了可以成功跑个 9b 的 gptq 模型(vllm 这个模型跑不成功报错 qwen3.5 什么 config 有问题,claudecode 修不了),是我不会用 vllm 还是消费级显卡就是不适合用这类推理框架?
1
bnull 13h 59m ago
我自己也是 a 卡,比较喜欢使用 llama.cpp,还能用量化模型,大一点的模型量化了也比小模型没量化效果好,vllm 和 sglang 都没尝试过,transformer 相比起来比较慢
|
2
ashong 13h 0m ago via iPhone
rocm 还是原生 linux 效率高,我是 7900xtx
|
3
01802 12h 35m ago via Android
nv 的 3080m 这种魔改台式 16G ,16xx ,用了一年多还不错,就是寨都寨厂出品,驱动 nvcleanstall 就行
|
4
wwhc 12h 33m ago
除非你是在为大公司或企业开发 AI 推理系统,建议使用 llama.cpp ,这是目前最好的 AI 推理框架
|
5
zhengfan2016 OP @ashong 79xtx 推理 rocm 对常见 gguf 和 pytorch 模型兼容性怎么样啊,打算攒钱搞块 r9700 当推理卡,但是看网上很多说不如买 4080ti 魔改卡 cuda 吊打一切,我感觉 1.2w 买张魔改卡万一坏了,风险还是蛮大的
![]() |
6
zhengfan2016 OP @wwhc llama.cpp 好像用不了那些 vllm 的什么 vllm paged attention 和 kv 前缀缓存的优化吧
![]() |
7
wwhc 12h 28m ago
7900xtx 在 llama.cpp 下支持良好,推理时的预填充速度可能只比 4060ti 稍强,但 token 生成速度与 3090ti 相差不大
|
8
wwhc 12h 26m ago
llama.cpp 的优化参数也很多,绝对性能目前可能仍不及 vllm 强,但可用性、易用性、可调性及部署能力都远强于 vllm
|
9
ashong 12h 23m ago via iPhone
@zhengfan2016 rocm 生态越来越丰富了,目前没遇到什么问题,qwen 3.6 27B Q4 大概 28tokens/s
|
10
ashong 12h 18m ago via iPhone
最近 sycl 生态也好起来了,估计 arc pro b70 要涨价了
|
11
oldlamp 10h 38m ago
16G 显存,是什么核心呢?
好像如果是 RX580 之类的就会比较慢,看人运行 omnicode-2-9b-q4_KM 能有十几个 tokens/s: https://mp.weixin.qq.com/s/7c-Lj_xg33r6dswMhH7bRg |
12
zhanying 10h 36m ago
用 rocm 还不如 vulkan 跑。。。
|
13
zhengfan2016 OP @oldlamp 9070
|
14
pnczk2019 7h 15m ago
这个东西.个人玩的话感觉不到爽.除非大力出奇迹.
我自己本地 3060 8G 搞了个 qwen2.7 玩了下.速度有 27T/S,.但是显存低.上下文长度也很低.输出速度倒是可以接受.基本不能用.这个东西没个 24G 以上基本就是纯折腾. |
15
yinanc 7h 3m ago
@zhengfan2016 我在用 7900xtx 跑 comfyui 的图/视频生成,需要配合 Claude code 解决各种问题,目前还没有遇到 hard block 的情况,体验还是很好的。4080s 32G 价格几乎是 7900xtx 的 3 倍了,还是魔改的,个人觉得完全不值
|
16
irrigate2554 3h 41m ago
是的,消费级推荐 lm studio
|