Qwen3.5-35B-A3B

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 61 days ago, the information mentioned may be changed or developed.

vLLM 部署的话，需要用 uv 安装一个 nightly 版本（正常 pip install vllm 的 0.15 版本用不了）：

pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

6 replies • 2026-03-19 09:43:13 +08:00

tthem

Feb 25

m2max 64GB 内存，能跑的起来吗

Livid

MOD

PRO

Feb 25

@tthem 能。

16G 的 4080 用 LM Studio 都可以跑起来。

046569

Feb 25

@tthem
M1 Max 32G q4 能跑到 60t/s.
@Livid
已经用上了,除了偶尔逻辑混乱分不清自己知识库的时间(一会说自己 2024 年的知识库,一会说 2026 年),其它都挺好,准备换掉 2507.

gigishy

Feb 26 via iPhone

@tthem 35b 你哪怕 48g 内存都能舒畅跑起来。我 32g 内存 m2 跑 32b 没有感觉不便。

Jackyxiaoc

Mar 2

这个模型跑龙虾咋样，够用么

stefwoo

Mar 19 via Android

@Jackyxiaoc https://pinchbench.com/
这个测评网站里面，这个模型跑龙虾还行，不过比 27B 要差五个百分点左右。

我的显卡是 3090 ，我现在就在犹豫是跑 27B 还是 35B ，27B 还是太慢了。