兄弟们，国产 Code Agent 到底有没有能打的？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 48 days ago, the information mentioned may be changed or developed.

我平时用 Claude Code 和 Codex ，token 消耗完的时候就用国产替代。

之前试了 GLM 5.1 ，效果还凑活，感觉大概能达到 CC 的 90%，直到有一天，GLM 悄悄的把线上服务给删了！！！太可怕了，没有找我确认，就这么偷偷删了。浪费我大半天的时间匆忙搞起来，环境变量重配太麻烦了。然后就再也不敢用了

最近 deepseek 降价，又试了 deepseek-v4-pro ，效果远远没有达到预期啊，看网上的宣传，以为至少达到 CC 90%的水平，实际体感连 60% 都到不了。普通任务完不成，需要太多指导，漏洞百出，还经常改坏已有的代码。

真不知道该用哪个了，兄弟们都用啥啊？

Code

agent

国产

75 replies • 2026-06-01 09:47:46 +08:00

sentinelK

May 27

你要分清，什么是 LLM ，什么是订阅套餐，什么是 Agent 。

honjow

May 27

标题你问的 Code Agent，但是正文问的是模型。。

honjow

May 27

@honjow #2 先分清楚这些吧。。。

lkk

May 27

没一个能打的，小米 mimo 免费用我都不想用了，给我捣乱改坏的代码我还得找 codex 给我修回来。其实 codex 5x pro 也就 700 一个月，耗我那时间还不如直接给官方交钱。要便宜找中转站，0.2 倍率的到处都是，要省心直接官网直付。但最省心的还是 claude opus ，真心好。

NeoWalnut

May 27

@sentinelK @honjow 这些还是能分清的，我是在 CC 中使用 GLM 和 deepseek 的模型，所以就没纠结模型和 agent 了，都融为一体了。

zhongzhaoguo

May 27

几乎没有都不好用 deepseek 也是太拉了 5 块钱没解决的问题 Opus4.7 10%不到的 5 小时时限的消耗就解决了

billzhuang

May 27

CC 和 GLM DS 可能没有想象的那么融为一体。

人家只给自家模型优化

NeoWalnut

May 27

@billzhuang 那国产模型配合哪个 CLI agent 效果比较好呢

aes114514gcm

May 27

@NeoWalnut 谁家的你就用谁，比如阿里云百炼的可以用 qwen code，腾讯混元可以用 codebuddy cli。

dacapoday

May 27

一分钱一分货，deepseek 这么持续降价有原因的，市场舆论要维护到融资成功，不然老底漏出来可就亏大了。

herozzm

May 27

线上吹的欢，线下拉的欢，没一个能打的

greenteaa

May 27

本月中把 Github Copilot 的 Pro+订阅取消后，就转 Codex + Opencode Go 订阅了。
平时 GPT-5.5 做 Plan ，Deepseek V4 Flash 做 Build ，Deepseek V4 Pro 做 Review ，整体体验没有下滑，反倒是 1M Context 体验好了很多；当然，可能是我做的项目没有那么复杂。
BTW ，也用 Gemini 3.1 Pro API 按量付费，专门用来修前端问题

tiezlk443

May 27

100$ codex
100$ claude code

tiezlk443

May 27

互相 reivew

PC9528

May 27

一般来说, 可以让 opus/gpt5.5 出一个详细文档然后用便宜的模型实施的, 这样省钱

guidao

May 27

我感觉 deepseek-v4-flash 比 deepseek-v4-pro 还好用。不知道是否是我的幻觉。

Sundayz

May 27

你们到底在搞多难的开发啊，我最近切换回国产的，我发现都能干活啊，成本还少了很多。

NeoWalnut

May 27

@aes114514gcm 👍🏻，我试试去

NeoWalnut

May 27

@Sundayz 可能是你的项目架构比较清晰，抑或逻辑比较简单？感觉大部分人都感觉国产比较拉胯

Sundayz

May 27

@NeoWalnut 差距确实是存在的，但是没有那么大，我觉得价格差距完全能够抹平模型的差距。

vicazuruhu97

May 27

@tiezlk443 说真的，opus 没有 review gpt 的能力，应该是 opus 写 gpt 来审核，如果反过来你会发现，很搞笑。。。。

KisekiRemi

May 27

国产都是蒸馏货，一分钱一分货，LLM 这块就这样。想要效果就别太便宜，想要便宜就别要求太高。那张经典的维恩图还在发力

billzhuang

May 27

@NeoWalnut 唯一可能的，除了模型自家的话，就是 opencode 了

weidaizi

May 27

一步一步来且需求拆的够清晰，opencode + deepseek V4 pro 站起来蹬，效果挺好的

CouleurApp

May 27

国产那些属于是白给我用，我都嫌浪费时间

code4world

May 27

测试过 DeepSeeK V4 Pro ，和 Codex 之类比，几乎不能用，差距太大了

teaguexiao

May 27

deepseek-v4-flash 配 opencode 比 pro 版意外地顺手，把任务拆小、CLAUDE.md 写详细能出不少活。不过涉及复杂重构或跨文件逻辑就别貭了，还是 claude opus 省。

lujiaosama

May 27

真正难题还是只能 GPT,CLAUDE.DEEPSEEK 用来做不是核心的工作还是不错的。

NeoWalnut

May 27

@code4world 我也是这感觉，差距太大了，心理落差很大，以前看宣传一直以为 deepseek 代码能力很强

0xdragon

May 27

@code4world 那是你们不会用， Claude/CodeX 写代码比较好的原因就是他们 Harness 做的比较好罢了！

wuxkwnjjwoxk

May 27

@guidao 4pro 思考半天做了个看起来不错的计划，然后又思考半天执行，最后出来个蹩脚半成品会很崩溃。

shuangchun

May 27

@lkk 700/1400 已经很便宜了

NeoWalnut

May 27

@0xdragon 在 CC 中用国产模型，harness 应该不都一样么。我觉得主要原因还是国产模型都是蒸馏模型，东施效颦。

jaoyina

May 27

@NeoWalnut

如果蒸溜能做出比美国也就落后半年到一年水平的模型。那为什么其他国家没做出来？你是不是把大模型研发想的太简单了。

catazshadow

May 27 via Android

@jaoyina 因为其他国家没有封锁，可以直接用美国的产品

NeoWalnut

May 27

@jaoyina 这个就别犟了兄弟，是蒸馏的，这个早就石锤了

hongye

May 27

这个账号的帖子蛮有意思的，可以看看全部的帖子。

jaoyina

May 27

@NeoWalnut

我没说没有蒸馏，我是说大模型不是靠蒸馏就能做出来的。

jaoyina

May 27

@catazshadow

你知不知道现在美国很多初创企业都已经偷偷切换国产模型了？他们也没有封锁，性价比摆在那里。

CuteGirl

May 27

@lkk 小米这个我今天试了下用了 1M 一个在 next.js 中 markdown 大纲解析都弄不好十几轮对话后无奈妥协手动写了唉

NeoWalnut

May 27

@jaoyina 这个主要看场景，咱们的 coding 场景应该是比较复杂的了，很多企业做文件搜索，摘要，翻译、客服啥的，对模型能力要求不高的。

catazshadow

May 28 via Android

@jaoyina 大模型靠蒸馏恰恰能做出来

tiezlk443

May 28

@vicazuruhu97
互有补充有的 claude code 能识别有的 codex 能识别

Meursau1T

May 28

用国产模型干活比用 Codex 和 Claude 的顶级模型慢，用 Codex 和 Claude 的顶级模型要花时间精力去搞家宽、指纹浏览器、境外支付途径等手段避免被封号或者降智。总归是让你有事做的，自己选喽。

userding2

May 28

干活用 opus, deepseek-v4-pro 被我用来接翻译服务。。

xxyzf

May 28

我昨天 codex token 跑光了，用的 deepseek-v4pro + deepcode cli ，主观感觉甚至比 codex 好一点，codex 最近 token 消耗变快了，也有点弱智了。

0xdragon

May 28

@NeoWalnut 开源的蒸馏闭源的？你脑子里装的是浆糊吧，你上过正经大学吗？

0xdragon

May 28

@catazshadow 开源的代码你是一行没读吧，东方烹饪学院毕业的？

NeoWalnut

May 28

@0xdragon 文明交流

HTravel

May 28

我用 TRAE CN 测下来是 GLM-5.1 和 DeepSeekV4 差不多。但 GLM-5.1 容易陷入思考死循环或思考过长，DeepSeekV4 相对耗时稳一点。但真正稳的，反而是腾讯 CodyBuddy 中的 GLM-5.1 ，虽然是同一个模型，但不知道是不是腾讯特调过，思考速度和代码质量明显超过 TRAE 同版的。

但相比 Codex 还是要差不少。我把 web 版音乐播放器移植为 iOS+watchOS 时，watchOS 国产模型死活搞不定，就是安装不上去。最后就是换 codex 搞定的。

但 GLM-5.1 和 DeepSeekV4 依然可以评价为真正达到了可以干活的级别。像我自己设计了一种文件快照方案，通过 jdk nio2 将其 scheme 完全拉通了，再加上扩展 zip 来支持 http ，最终路径类型可以支持 snapshot:、snapshot:http:、zip:http:、httpfs: 等各种变体，对上层业务来说基本上不需要关注路径类型。最终能达到无感的观看其他服务器上的压缩包或快照内的视频/书籍/音乐什么的，或把其他电脑或安卓手机挂载成本机硬盘。这种整合就全程是国产 AI 写的，并没有代码越写越乱，遇到异常的就把现象或异常栈反馈给它，它自己修，我偶尔指导下，最终代码质量越来越好。

peiorange3071

May 28

提问 op ，蒸馏需要盖盖子吗？

0xdragon

May 28

@NeoWalnut 笑死我了，一行开源代码没读过的野蛮人也配说文明

lovelyidiot

May 28

最近 chatGPT/copilot 用的太猛，双双周限了。然后试用了下 deepseek v4 pro ，6 天花了 50 块。

最大感受是，deepseek“抄书”可以，但是“思考”不行。也就是如果是网上一大把资源的任务类型，做的还不错，至少能用了。

但是如果网上资源很少，就能马山感觉出差异，不会“思考”。

同样的一个问题，让 deepseek v4 pro/chatgpt 5.5 high/claude sonnet 4.6(copilot)/gemini 3.1 pro high 分别让他们从之前的项目学习技术点，然后设计方案（不包括实现），后三者表现不错（尤其 gemini ，能 get 到设计的巧妙和它的设计的局限性），虽然有时候也反应不过来，但至少通过纠正能让他们认识到自己的错误，然后修正，还算听话。但是 deepseek 明显的就是会丢掉我的某些明确指令，并且有时候认定的事情，怎么说都反应不过来，自己修正不了。

最后就是价格的问题，至少用 deepseek 没感觉出来省钱/省时间，按照我目前这种 deepseek 做候补的使用方式，一个月也要至少 20$+了，但是从最后产出的结果，并没有比其他几个 20$订阅更多。

NeoWalnut

May 28

V2EX 应该加一个屏蔽或投诉功能，有些人吃💩长大的，还到处乱喷，把版面都熏臭了

NeoWalnut

May 28

@peiorange3071 不盖盖子，要敞口，又细又长的那种，嘻嘻

wangweiggsn

May 28

@NeoWalnut 支持，还是瓶子。s b 太多，直接 block 就行。deepseek 就是弱，我试过一些简单任务都做的不好，同样的从一堆杂乱文本中，按我需要的字段提取内容给我，gemini flash 都比它强。

wwwwjack

May 28

我选 codex 省时间省心

code4world

May 28

@0xdragon 我猜你甚至都没有用过 codex 或者 cc ，用过就不会说这种无知的话了。

那些大佬都用 codex 或者 cc ，比 deepseek 贵不少，难道都是疯了不成？

code4world

May 28

我知道国内水军五毛非常多，所以建议楼主直接 ban 掉这些人

NeoWalnut

May 28

@code4world 已经 block 了

catazshadow

May 28 via Android

@0xdragon 你可能连烹饪学院都没上过

Rorysky

May 28

2026 年了，中美一梯队的大模型能力都没问题，如果使用出了问题，那就是人的问题

jettzhang

May 29

GLM 和 deepseek 两个搭配用

WashFreshFresh

May 29

2026 年了，还有人拿蒸馏说事，我不知道是选择性失明还是单纯的蠢

150530

May 29

喜欢用啥就用啥呗，国产模型落后是事实，但老拿 opus 比就没意思了，GLM5.1 参数量 744B ，DeepSeekV4-Pro 参数量 1.6T ，opus 可是 5T 级别的，纯力大飞砖，价格和参数量都不是一个级别的没必要硬比

0xdragon

May 29

@code4world 20 美元你都没有吗，家里揭不开锅了？你幼儿园毕业了吗

Allendeng

May 29

glm + cc

0xdragon

May 29

@code4world @catazshadow @NeoWalnut 一群 lowb

0xdragon

May 29

Cursor 还微调过 kimi 呢，你去问 Claude 它有时候还会回答自己是 deepseek ，大模型互相蒸馏本来就是业界共识，村里没通网吧

catazshadow

May 29 via Android

@0xdragon 连存在不等于合理都不懂的你，才更适合 lowb 这个词。

一口一个烹饪学院，还是很符合你 lowb 的本质，毕竟你自己可能就是从那出来的

NeoWalnut

May 29

V2EX 的 block 好像没用，我把这货 block ，还能回复
@catazshadow

0xdragon

May 29

@catazshadow 你还是赶紧回家蒸馏你妈吧 LowB

Alan0000

May 29

我现在是用 opencode+codex 和 ds v4 pro ，codex 写修复/重构/实施方案，简单任务交给 ds ，复杂的还是 codex 自己完成

catazshadow

May 29

@0xdragon 说不过开始人身攻击了？符合你低 B 的定位

skuuhui

Jun 1

模型弱自己就多加一点脑子。模型强自己就少加一点脑子。