我的 GPT 5.5 怎么和你们的不一样？

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

最近经常看到有帖子回复说「 GPT 5.5 比 Claude Opus 强得多」「 GPT 5.5 更全能」（例如 t/1217986 ）。

但就我最近几周的使用体验，我感觉 GPT 5.5 相当不如人意啊。具体来说：

口癖和英文直译腔特别严重。虽然说比之前的 GPT 5.2~5.4 好一些，但也真的只是好一些，还是特别喜欢说「稳」「接」「拆」「跑」「闭环」「收敛」「它更像是……」「不是……而是……」「你说的完全正确」「先说结论」「列出“子弹”」「修改更“硬”」「要不要我……」「我立马开始……」。我尝试写了个 Skill 来试图修复它的回复风格，但也没有太大收益；
结构化表达能力不行。例如同样是对于一个代码仓库，询问一个需要深入代码研究的问题，Opus 4.8 能够简洁地以一两句话回复 Yes or No ，但 GPT 5.5 就要生成几千 tokens 的、包含四五点小标题的冗长回答，引用一大坨代码，而且每个分点的内容之间相互重叠，读起来全是噪音，心智负担特别高，而且相比于 Opus 的答案，也没有获得什么额外的有效信息量。搞得我现在都不敢问 GPT 5.5 问题了，读得头疼。
擅自动手，干一大堆根本没有要求的任务。这个我原以为只有 Gemini 之类的模型会犯，但最近 GPT 5.5 也开始频繁出现了：让他看个 review ，讨论一下如何解决，它直接自作主张一口气「阅读了 review 、研究了代码、选择了自己喜欢的解决方案、编写了 AI review 回复」。要不是我及时掐断，它都要调用 GitHub cli ，以我的身份去回复别人了；还有一次，要求它「阅读一个 bug 描述、定位代码问题」，结果它非要和我讨论「这个 bug 报告的英文措辞不对，应该如何改善」，就很……
代码风格很差。这个我不知道怎么描述，但是同样让 GPT 和 Opus 去写一个一两千行左右的复杂代码任务，GPT 给我写的代码修修补补之后，最终总是包含几十个零碎函数、一大堆无用的小作文注释、不对称的代码结构（例如有两个 Config 概念，GPT 非要写出一个 struct、一个 class）。这些也都算好的了，毕竟「又不是不能用」，关键是它写着写着会把自己也给绕进去，淹没在自己写的屎山注释和混乱结构里，最后失能得连自己写的细节都忘记了，debug 都做不好了；

而 Opus 不仅写出来的代码更有「人味」、符合我的预期，甚至有能力修复重构 GPT 写出的屎山，延长 GPT 的工作周期。有一次：GPT 5.5 挣扎两个小时，然后告诉我做不好的任务，Opus 花 15 分钟定位、直接几行代码解决了。

总之，我目前的体感能力大概是：

Opus 4.8 ≈ Opus 4.6 >> Opus 4.7 > GPT 5.5 ≈ MiMo 2.5 Pro >> GPT 5.2~5.4 >> Gemini 3.1 Pro

我的配置：OpenCode + ChatGPT Pro 官方订阅（无中转站），GPT 5.5 xhigh

如果各位有舒适的使用体验，也欢迎分享点 Harness 方面的干货，我是真没辙了。昨晚项目被 GPT 5.5 乱改一通，气得血压都高了

结构

自动

代码

26 replies • 2026-06-05 01:17:18 +08:00

409164

3h 22m ago

4.8max 秒杀 5.5xhigh

Ericcccccccc

3h 8m ago

用的是 codex 吗

w568w

3h 6m ago

@Ericcccccccc 主帖有写，是 OpenCode 。我不太方便把我的 Claude 订阅接入到 Codex ，所以两边都「客场作战」，用一模一样的 OpenCode 配置，来公平比较了。

Ericcccccccc

3h 3m ago

@w568w 这就不清楚了。codex 是很强的，我的体感是只要讲清楚代码都是一遍过的。（我没用过 cc

lujiaosama

2h 42m ago

@w568w OpenCode 的锅可不小。同样接入 DeepSeek ，用 Claude CLI 和 OpenCode 的表现截然不同。

Perry

2h 41m ago via iPhone

其实很看你的 Verification loop 如何

xuhuanzy

2h 39m ago

你是我第一个看到 opus 改 gpt 的屎山的, 正常来说只有 gpt 给 opus 擦屁股的份

w568w

2h 37m ago

@lujiaosama 你的意思是，OpenCode 在 Claude 上能发挥优势，但在 DeepSeek 、GPT 上都有极大劣势？我倒是也可以试试 Codex CLI 就是了

@Perry 此话怎讲？

w568w

2h 37m ago

@xuhuanzy 「正常来说」是怎么来说？能不能分享下你的配置？

felixcode

PRO

2h 36m ago

gpt 5.5 xhigh 感觉比 opus 4.7 max 稳很多。
opus 快是快，顾前不顾后，改了这个忘了那个。

Retas

2h 35m ago

codex 的 GPT-5.5 的语言表达感觉能追上 Opus-4.8 了，没有那么糟糕

w568w

2h 33m ago

@felixcode 我的体验正好和你相反：GPT 5.5 各种瞎 jb 改，不管上下文，甚至不管我前一句话的要求是什么，按自己喜好乱写； Opus 倒是总是瞻前顾后，每次 plan 时排出一堆 concerns 来

另外我感觉 Opus 4.7 明显有大幅度降智，Opus 4.8 才勉强回归到了 4.6 的能力水平，所以我把 GPT 5.5 和 Opus 4.7 放在一起

Zarhani

2h 31m ago

没用过 claude ，但是我这边倒是 GPT5.5 生成的代码质量还算不错，我都是先用 GPT5.5 生成大框架后用 deepseek v4 pro 来继续干自动完成的活的，（问就是 codex 限额太少）

Zarhani

2h 29m ago

@Zarhani deepseek 给我的感觉就是，只要上下文里面有已有高质量代码，就会变得巨聪明；如果上下文没有高质量代码就会没那么聪明；似乎这个模型底子不错但是后训练不足，小众需求代码不在知识库里面

lujiaosama

2h 29m ago

@w568w 我只是对比了 DeepSeek 在这俩上的表现。CodeX+GPT5.5 高有你说的问题特征，但是没有那么差,看描述像是 Codex5.3 之前比较容易出现的。

Zarhani

2h 26m ago

@lujiaosama 我一直用的 vscode 上的插件，没有安装 codex 独立应用

w568w

2h 24m ago

@lujiaosama 嗯嗯。GPT 5.5 肯定是比 Codex 5.3 或者 5.4 强的，尤其在反编译、绕过反爬虫和逆向软件这种安全任务上，明显比 Opus 4.6 强得多。

但 GPT 5.5 这个工程实践能力在我这里确实不咋行，而且输出口癖的风格还是没扭转过来，有时任务做的差、代码写得烂，又得意洋洋地总结自己做得如何如何好，有种面对伪人实习生的感觉，很火大。

tanrenye

2h 24m ago

@w568w 额，为什么会有必要用同一个 agent 对比，Claude 和 codex 都有针对性的优化，用原厂的 Claude code 和 codex 才是最好的，我自己的体感 5.5 和 Claude 相差不大，5.5 确实代码会啰嗦一些，但无伤大雅，5.5 会更倾向于跟项目现有的风格保持一致，Claude 会更倾向于他自己认为好的实现，但我平时更多用 codex ，因为 Claude 是公司中转的，很慢，但 Claude 有 1M 上下文这个在超长任务的时候会比 codex 有明显优势

zhangleijuly

2h 23m ago

可能是 opencode 的问题？模型只是一方面，用什么 agent 调用模型也不能说完全没影响

xialaoban

2h 22m ago

口癖这点真的无比认同

w568w

2h 21m ago

@tanrenye > 为什么会有必要用同一个 agent 对比

因为不用就会有人说「是不是 codex/claude code 的问题？你为什么不用一样的 harness ？你这吐槽没意义」，两头不讨好~

开玩笑，实际上的原因是我有两边的订阅，然后有一些自己的配置和 skills 之类的，opencode 允许我在同一个会话里面切换不同模型，比较方便。

AmericanExpress

2h 17m ago via iPhone

我们给的是 gpt 没有 claude，但 5.5 从刚出用到现在不记得有遇到过这些问题，不过我用的是英语

dingawm

1h 59m ago

口癖问题我在 5.5 上基本上没见过了，然后结构化表达能力在 codex 里还好，在网页上很糟糕，很喜欢换行，不知道为啥。擅自动手这个也很少遇到

neteroster

1h 28m ago via Android

5.5 是执行的神，opus 是规划的神，我不明白有什么冲突的

opus 无论 4.6,4.7,4.8 执行就是不行，我真的不明白，一份十分明确的 spec 给进去执行出来就还是会有明确漏项或者矛盾的地方，5.5 甚至 5.4 就完全不会有这种问题（这就是为啥 5.5 在 deepswe 之类的 bench 表现如此之好）

opus 的优点就是偏好对齐，还有讨论方案，这些微妙的地方，5.x 完全不行

neteroster

1h 22m ago via Android

@neteroster 还有一个和工程代码没那么相关的就是 opus 世界知识现在似乎已经是御三家最差了，5.5 长尾世界知识已经有半步 Gemini 水平了（甚至例如 ACG QA 这类以前 GPT 差的离谱的领域），再加上最前沿的数理知识/推理水平，导致写起研究类实验代码非常舒适，我不知道其他细分领域是否也会有这样的情况，但就我自己做数学交叉方向的经验来看，只要涉及数学推理的代码我只能相信 GPT 系列

drymonfidelia

1h 16m ago

gpt 如果你没明确禁止单文件最多 800 行，它甚至能给我干出 12 万行的 god class