GPT-5.5 真能让人用得舒心吗？怎么在我这跟弱智一样

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

纯吐槽贴。太长不看：听不懂人话。

本贴接续 https://www.sunp.eu.org/t/1218023 ，因为上个帖子里有人说「不用 Codex ，模型性能当然差！你的抱怨都是无效的」，所以我最近换用了 Codex ，继续吐槽几个例子。

以下例子均使用：官网 GPT Pro 账号（让美国朋友帮忙注册的）+ 最新版 Codex + 开 xhigh （有思考过程）。已用几个账号质量检测站检测过「是否是满血模型」，均为 100% 通过。

要求它「合并代码，先运行编译测试再 commit 」。我刚说完这句，还在 Skill 里特意强调了一遍。结果它改完代码什么都不跑、什么都不查，转头直接 commit 了。指令遵循能力令人汗颜。
要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令，硬是用 Write 工具，花了几分钟把一个几千行的文件用 LLM 逐字「复制」了一遍…… 不是，我的 token 是大风刮来的吗？
要求它「复现并研究一个用户 bug 报告」，报告大意是「启动应用时会正确跟随系统的颜色主题；但启动之后再改系统主题，必须重启应用才生效」。结果它写了个只测「应用启动时能否读取主题」的调试用例，跑完发现「启动时确实能读取主题」，就告诉我无法复现、然后放弃了。说人话就是，报告明明说「 A 场景正常、B 场景有 Bug 」，它却只测了 A 场景，发现正常（这不废话吗），就认定报告无效…… 这是智力正常的 LLM 能干出来的事？
这个在上个帖子里也提过。让它看一份 review 、和我讨论怎么解决，它直接自作主张，一口气「读完了 review 、研究了代码、挑了个自己喜欢的方案、还写好了 review 回复」。要不是我及时掐断，它都要调用 GitHub CLI 、以我的身份去回复别人了。另一次，要求它「读一份 bug 描述、定位代码问题」，结果它非要跟我讨论「这个 bug 报告的英文措辞不准，该怎么改」，就很……无语。
在另一个项目里三番五次强调「要用 uv run 和 pyproject.toml 管理依赖」。它就是不听，非要用 pip 、用系统 python 、用 conda 。再三要求改正，它输出道歉，却连自己刚写的「 uv pip 」都不去改成「 uv add 」。我不说，它就永远不改、也不会主动提醒我。上一个例子非要干没有要求它干的事，这个例子明明是它分内的事，它却什么都不问、不说、不做了。

心累啊。

至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」，就这第一个例子，完全干净的上下文都能给我执行一半、丢一半，再多的 Prompt 感觉也没法补救这种例子了。

指令

逻辑

缺陷

130 replies • 2026-06-17 01:11:52 +08:00

1 2

❮

❯

jinsongzhaocn

1 day ago

你理解错了，必须要加 skills 。

jinsongzhaocn

1 day ago

Anthropic 内部披露，没有 Skills ，Claude 在内部评测里的准确率不超过 21%；加上 Skills 之后，稳定冲到 95%以上，部分领域接近 99%。而且 95%的 Skills 还需要一直升级，否则甚至会掉到 65%。就凭这些信息，你还懒得折腾 skill ？

Haku

1 day ago

用一下国产的，你就会发现确实很聪明

w568w

1 day ago

@jinsongzhaocn 唉唉。我当然用了 Skills 啊，我说「不用提这些」的意思，不是「我一个都没试过，我猜肯定不好用」，而是我全都试了一遍，情况没有改善……

w568w

1 day ago

@jinsongzhaocn 你真的认真读帖子了吗？就这第一个例子，你告诉我什么样的 skill 才能让它知道「当用户要求你做 A 、B 、C 的时候，你应该做 ABC ，而不是只做 C 」？

canyue7897

1 day ago

op 是直接用追求目标模式还是开的 plan 模式？如果直接追求目标，可能会出现这种情况，遇到过跳过指令的情况，不过也没那么夸张。但是开了计划，按道理来说，不应该。

jinsongzhaocn

1 day ago

试试主动唤醒 skill ，先规划后执行呢？比如：
/superpowers:brainstorming <跟上你的 md 文件名和说明>
或者 mattpocock-skills 的 /diagnose ， /tdd

walkon

1 day ago

AGENTS.md 用起来，Plan 用起来。

w568w

1 day ago

@Haku 是的，我现在发现 GLM5.2 和 MiMo 2.5 Pro 都比 GPT-5.5 好用，至少

(1) 能听明白我想做什么；
(2) 自己不明白的东西，知道要先问我；
(3) 没有要求它做的，绝对不做；
(4) 有基本的逻辑思维。

GPT-5.5 感觉有时候真的是小脑发育不完全了，逻辑关系都能弄错（测试 A 场景正常，认定 B 场景没事）

canyue7897

1 day ago

我咋感觉你的降智了，你看看你的思考时间是多久？我的思考很少低于 5 分钟的。

jinsongzhaocn

1 day ago

有时候确实需要啰嗦很多它才会改方向，比如：
UI 调试：`playwright-cli open http://127.0.0.1:8069/ --headed`, 注意有-cli 后缀, 不是 playwright.在 Playwright 官方的最新的架构中，playwright-cli 和旧版的含义完全不同，它和 playwright/mcp 正好构成了 AI 浏览器的两大演进方向.这里的 playwright-cli 并不是我们以前理解的“用来跑 npx playwright test 的那个终端命令”，而是一个全新的全局 NPM 包（@playwright/cli ）。它是微软专门为了解决 AI 智能体（如 Claude Code 、GitHub Copilot Workspace 、Aider 等）在进行浏览器自动化时极其消耗 Token 的痛点而重新设计的.

w568w

1 day ago

@walkon 谢谢，我用了的。

我还可以再举一例：AGENTS.md 里有要求：

- `find` or Glob or `glob` MUST be used with `-print0` and `xargs` must be used with `-0` to handle file names with spaces or special characters. MUST use `-xdev` to avoid descending into slow network filesystems. NEVER find or glob or search files without `-xdev`.

因为我们的项目里面挂载了网络文件系统，模型有时候喜欢直接全局搜索，会非常慢。

至今为止，GPT-5.5 遵从过这个指令 0 次…… 我觉得我这段话应该已经写得够清楚了，对吧

jinsongzhaocn

1 day ago

@canyue7897 别最后发现是网络问题，：-D

canyue7897

1 day ago

@w568w 你是不是写的东西太多了？本来上下文就 258K ，你如果用了 sub2api 之类的，而不是原生的话，真实推理没有多少 K ，那就只剩压缩了。工具调用都占用几十 K 的上下文。

jinsongzhaocn

1 day ago

@w568w 你用的 opencode 吗？如果是 cc ，默认不会读 AGENTS.md,需要指明给它

canyue7897

1 day ago

@jinsongzhaocn 我没有开倍速，基本都是五分钟。网络应该不至于，网络用了多年了。

qwerasdf123

1 day ago

看了你的两个帖子，感觉你的 gpt5.5 确实不正常，至于降智还是什么原因，需要具体排查一下

lmmlwen

1 day ago

你这个，还停留在上下文约束上面

w568w

1 day ago

@jinsongzhaocn 谢谢，你这里我有一点认同的，就是确实是需要啰嗦。

怎么说呢，感觉 GPT 在我这缺乏那种基本的逻辑思考能力，就像一辆不停撞墙的车，不出两轮对话就会把自己引到死胡同或者错误、疏漏的执行路径上。需要不停地手动 steer ，steer 完他才会正常几轮，然后又接着对着墙猛冲……

如果多改正它几次，它就变得畏手畏脚，什么都不敢提、不敢问了，而且每轮对话里都要反复和我强调「我不会 xxx 、xxx 、xxx 」（ xxx 是我前面改正它的内容），哭笑不得。

lscho

1 day ago

不明白什么场景怎么用的。。。在我的场景 GPT-5.5 + codex 比 cc + opus4.8 都好用

canyue7897

1 day ago

@jinsongzhaocn 他用的 codex ，codex 的上下文挺短的。我的是放在 gemini.md 中，codex 自己都去读了，没有遇到不读的情况。不过可能 gemini.md 要求更加严格一些？

jinsongzhaocn

1 day ago

还有个可能是通过代理调用，结果代理给的是假冒的，代理是可以随意修改模型名称的。

w568w

1 day ago

@canyue7897 @qwerasdf123 @jinsongzhaocn 是的，降智是我现在最怀疑的原因，关键是：各种模型验证站都测不出来！发个帖也是看看有没有朋友遇到类似的问题。

我这里思考时间比较波动，有时候 10 分钟，有时候就一句话结束。但确实思考长的时候，主帖提到的情况会少一些。

我是直接用的官网账号，在模型验证站上测模型验证的时候，通过的是我自己的 AxonHub 。

@lscho 没有特殊场景，也没有加什么野鸡 skills 、或超长的 agents.md 、或用一个已经特别长的 context 不压缩，就是正常地下载 codex 、安装、登录，正常地提问和命令，就出现了这里提到的大部分问题了。

shineonme

1 day ago

感觉用的跟你不是同一个 gpt-5.5 xhigh

第 1 点，我跑的项目没有做过特殊要求，每次都会做一遍编译测试，有时只改了很小的点，也会跑一遍完整的编译测试

第 5 点，特地在 AGENTS.md 写了使用 conda 环境的 python ，用到目前没有出现过偏差的情况，写入 AGENTS.md 之前是会调用系统默认的 python, uv

canyue7897

1 day ago

我是直接用的官网账号，在模型验证站上测模型验证的时候，通过的是我自己的 AxonHub 。你这个是 web 转 api 么？如果是，那 web 中间的很多工具调用你这个工具肯定不能完整模拟，很多都丢弃了，那你根本就是断断续续的得到信息，你直接用 codex 试试，不会出现你说的问题的。codex 还是很遵守指令的，有的时候过于遵守了，我都感觉没啥主动性。

darklowly

1 day ago

codex 体感确实很差的。我也搞不懂为什么那么多人喜欢 codex 。

经常会出现鸡同鸭讲，还有输出的内容看着都头疼

codingerj

1 day ago

官网 GPT Pro 账号为什么还要用号质量检测站「是否是满血模型」？

w568w

1 day ago

@codingerj 因为想看看是不是降智了，就像楼上很多人怀疑的那样。

并非：买了 GPT Pro 账号 -> 用号质量检测站「是否是满血模型」

而是：买了 GPT Pro 账号 -> 体验很差，遇到了各种问题 -> 发帖求助 -> 评论怀疑是被 OpenAI 路由到降智模型 -> 实在没办法，用质量检测站检测一下

ebushicao

1 day ago

如果你没有说谎，且不是登录账号之后又配置了第三方中转站，那只能是模型降智了，但理论上即便降智也不至于发生 1 和 2 的情况，你要不要检查一下你的设置，全局的 skill ，全局的 AGENTS.md 文件，项目内的 AGENTS.md 。

defaw

1 day ago

最近疑似挪算力去训练 gpt5.6 了，我个人体感很差，一个已经给定了逆运动学代码的程序，我让 gpt5.5 medium 写可视化，连打字纠正带截图反馈改了六遍才写对。

defaw

1 day ago

补充：正价 plus 不是中转,codex cli 最新版

daj2

1 day ago

要不我在梯子上给你开个反代你试试是不是模型降智的问题？ 127***[email protected] 这个邮箱你还用的话我发你

YangWaleed

1 day ago

用 codex + gpt-5.5 确实没遇到这么弱智的时候，甚至我只用 medium 和 high

OP 你都装了什么 skill ？会不会是上下文被污染了？

plp

1 day ago

通过你的描述感觉是你描述的问题比较大
比如相关背景,相关技术架构说清楚了吗? 使用某些功能某些工具你指定了吗？
输入输出你指定了吗？
总体原则与注意事项你给出了吗？

AI 确实很强,但也不是无脑使用,需要使用者自己能正确写出提示词

tengxun

1 day ago

codex cli 不如 codex 客户端

aimuz

1 day ago

我也是订阅了 GPT Pro 账户，之前一直订阅的是 Claude Max ，听他们说 GPT 5.5 很强，到期后就换成 GPT Pro 了，我实际用下来 Codex 的体验比不上 Claude 。用的是 Codex 桌面版。

可能是经常使用 Claude ，然后换成 Codex 后各种不适应。高强度用了两天，直接申请退款了。

w568w

1 day ago

@daj2 在用的。你方便的话可以给我发个临时的 key ，感谢

w568w

1 day ago

@YangWaleed 目前有这些全局生效的，大部分都是我自己写的：

从上到下是：代码重构指南、深度研究、下载模型、如何 update 一个 fork 、如何重构 PR 、如何写研究 Proposal 、网上搜索、文章润色、如何用微信推送通知

上下文的话，我看模型似乎没有读过 skills 。就算读过，我也很难想象这些特定功能的手写 Skills 会特别影响模型能力……

w568w

1 day ago

@plp > AI 确实很强,但也不是无脑使用,需要使用者自己能正确写出提示词

但我说的这几个 case ，除了 GPT 以外都没有犯过（当然其他模型也有其他的问题，但不至于有这么多低级错误）

> 使用某些功能某些工具你指定了吗

主贴已经说得非常非常清楚了吧。Skills 、Prompt 、Agents.md ，甚至完全清楚无歧义的指令就在上一句，都能执行错。我没招了……

daj2

1 day ago

@w568w #37 发了

w568w

1 day ago

@daj2 感谢朋友，已经收到了。我今晚有空测试一下，明天给你反馈。

dingawm

1 day ago

估计是你的问题，要真这么差，OpenAI 可以 Close 了
至于是不是因为 IP 降智，我不太清楚 OpenAI 是否会针对 codex desktop 使用根据 IP 进行降智，但是我之前刚开 GPT Pro 的时候，我发现在网页上用 Pro 模型，总是不思考就回答问题，正常来说应该会思考好几分钟，我才意识到可能是被降智了，之后换了个节点之后就正常了。

noahliaszn

1 day ago

因为之前有一篇文章讲过 gpt-5.5 的 prompt 实践反正我按照官方修改了 agents.md 几乎没做蠢事
https://developers.openai.com/api/docs/guides/prompt-guidance?model=gpt-5.5

duuu

1 day ago

把项目的 AGENTS.md 发出来大家看看吧

w568w

1 day ago

@duuu https://gist.githubusercontent.com/w568w/c79140cbc69f32c56475f4a96e333818/raw/c5fc50c3f8f5af9acfdae7c9027475a4663743b0/AGENTS.md

euronx

1 day ago

gpt5.5 在我这就是个聪明逼，95%的任务都干的又好又快，每次改完代码还会 review 告诉我本次修改是否有 breaking change

superhero007

1 day ago

我也觉得 codex 一般，输出内容很难看，说了半天看不懂绕来绕去在说什么。用 GLM5.1 的体感都更好一点.

huang86041

1 day ago

是不是挪算力切换量化版本了,我也感觉确实智商低了不少.

Clannad0708

1 day ago

不清楚，我用起来没啥问题

NerbraskaGuy

1 day ago

个人感觉写功能逻辑没有 5.3codex 好用，只是在给他图片让他还原样式这方面确实比 5.3codex 进步很多

ericguo

1 day ago

你要先/init 另外删掉你所有的 skills ，系统给的肯定用不上的 doc ，excel 之类的也可以删掉，然后你直接说你要什么就好了（前提你自己会编程）

Codex 我已经用了半年了，我现在只用这个，Plus 对我来说都够。

GodIsJasonBourne

1 day ago

10 有 89 没有开执行本地命令的权限罢？"要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令，硬是用 Write 工具"

aimuz

1 day ago

@dingawm 那我感觉我的 Pro 被降智商了，之前试用了 Plus 感觉没有那么差。升级 Pro 后就不行了

Anonono

1 day ago

最近一周也感觉 5.5 没以前聪明，但是大部分体现在复杂任务上，这种直接 CP 的问题我还没留意过。

ovtfkw

1 day ago via iPhone

@w568w 你不是用的官网的 codex 和官网的模型吗，并没有通过中转站吧？
那也会碰到降智吗？

rangoBen

1 day ago

好比你买了一台电脑，你明明都知道配置单，配置不低，价格还贵。全世界都在买它，用它，反响不错。
你拿回家，捣鼓了两天，你说：这电脑性能真好用吗？玩 3A 这么卡？
因为你觉得：至于「你怎么不装 Superpowers / 不用 XXX Harness / 不用 XXX 策略」，就这第一个例子，完全干净的上下文都能给我执行一半、丢一半，再多的 Prompt 感觉也没法补救这种例子了。
因为什么？
agent 、skill 、提示词相当于是电脑的驱动
建议去看吴恩达的提示词的课，免费且深入浅出。

不过你这个不是个例，我们称之为前 AI 时代跟后 AI 时代的人，上手 AI 是不一样的。
从 cha gpt 一路用到现在，提示词，skill 这些的使用思路，已经形成肌肉记忆了。

tanrenye

1 day ago

@jinsongzhaocn 纯粹好奇，如果这些 skill 如此重要，那么为什么 A 社不让 Claude code 内置呢

icyalala

1 day ago

等一下，你用的官网的 Codex ，为什么要搞什么账号检测站？
你是真的 Codex 还是通过什么 API 接入呢？

w568w

1 day ago via Android

@rangoBen 可见学习 AI 会降低人的阅读能力和理解能力。因为你除了最后一句话之外，已经看不下去任何字了。

你甚至不愿意看完整个帖子，看看我到底有没有提到 skill ，以及我回复里提到写了多少个 skill 。

@icyalala 请往上翻，找到并读我对 codingerj 的回复。你是倒果为因了。

是因为发现不对，怀疑 OpenAI 官方在降质，所以才去用检测站查，来辅证；而不是我买到手（或者是买了中转站），所以闲的没事干去用检测站检测。

buruoyanyang

1 day ago

同感，也是正价开了 GPT 账号，感觉远远不如中转的 Claude 啊，我现在拿他当豆包用，下个月不续了。

w568w

1 day ago

@GodIsJasonBourne > 10 有 89 没有开执行本地命令的权限罢？"要求它「把一个代码文件复制到另一个位置」。结果它不去调 cp 命令，硬是用 Write 工具"

是开了的，因为我下一句就批评了它，让它不要用 Write 改用 bash 。然后它立刻就用 bash 执行 cp 了。可见并不是没能力，而是没意愿。

然后我也问了他「为什么不用 cp ？你复述一下我的前面的命令」？他的回答是这样的：

===
你给我的命令是：
“把现在这个 /xx/xx 复制到本地的真实 provider 目录下。”

更具体地说：
- 我把“同步目标文件”误判成“继续修改目标文件”。
...
===

这里也挺哭笑不得的，回答完全不知所云：它辩解自己做错的理由是：「你说的是“同步”，不是“复制”」，但自己在一句话之前刚刚复述过的就是「你的命令是：把现在这个 /xx/xx 复制到本地的真实 provider 目录下」，根本没有「同步」这两个字。

desstiony

1 day ago

完全没遇到过

ty29022

1 day ago

codex 没有 Write 工具，只有 apply_patch, 你们在说啥？

w568w

1 day ago

@ty29022 "Write" 是指用来写（ Write ）文件的工具，而不是「那个名字叫 "Write" 的工具」，在 Codex 里相关工具就是 "apply_patch"。

至于为什么这么叫，大概是受 Claude Code 影响吧。如果真要较真的话，"Bash" 也应该叫 "shell" 或 "local_shell"。

Liftman

1 day ago

很确定你是降智。。。。。

HappyFox

1 day ago

1 、很明显降智，也就是使用的是量化版本模型，而非原始模型。检测站只能检测是否是 GPT5.5 ，厂家有没有给你量化是另一回事。而且厂商可以确定量化的比例，也就是多次请求中，在厂商认为不影响“服务质量”的前提下给你替换部分返回结果。具体原理参考某些中转站掺假

2 、这事无解，除非你用的云服务厂商托管的私有部署版本，否则在新模型上市前一两个月，当前版本的 SOTA 模型都会降智、节省算力用于训练新模型。用任何原厂的 coding 套餐都有这个问题，只有企业/api 用户可以豁免

bjy1

1 day ago

有人要求高，有人要求低，项目复杂度也不一样。
确实有莫名其妙的问题，经常把对话内容写页面上。
还好比我强就让它写，它晕了我自己写

v2gba

1 day ago

skills 也好 harness 也好什么 loop/goal/.md 等等

都是模型能力不够的弥补手段

同一个项目前几天 Fable 能用的时候,我白天远程遥控开发了十几个 feature,回家检查了下一个 bug 都没.

但在这之前的(除了刚出来 1~2 个月的时候),和这之后的 Opus 都是半死不活的样子.

写进 CLAUDE.md 的规则不执行(context 只用了 10 几%)
5 轮对话里,第二轮纠正的事情(必须用模拟器测试完之后在交付给我), 第 5 轮又忘记了 (当第五轮 context 也只有 30 多%)

只能说这些模型厂商非要降智,开头说的那些也很难救回来.

要么用 API (API 应该不降智吧) 要么一直用刚发布的模型(LOL. 临时威力加强版)

unusualcat

1 day ago

我用 gpt5.4 中。codex 桌面客户端，写程序做任务都做的很好。你的大概率是降智了，否则没道理 5.5 还不行的。
我用 5.4 纯粹是因为 5.5 额度烧太快，而 5.4 也可以满足我的需求。

Thesara

1 day ago

5.5 很喜欢头痛砍头，感觉不如 5.3

HappyAndSmile

1 day ago

我支持 op ，最近的 gpt 5.5 确实像个弱智一样，让遵守我的守则文件，非要不遵守，非要画蛇添足，乱加文件

lesismal

1 day ago

应该是降智了吧，前阵子不是误封、然后又发福利一波，没有免费的午餐。

而且不只是 GPT ，claude 最近体感也降智了。

以前很多一把过的东西，现在半天不过，反反复复。

每次遇到这种观念，我都休息几天再看。

cheng6563

1 day ago

你账号降智了。
另外，轮降智水平，我 opus 第一个不符：

Q：你用的什么终端？
A：你好，我用的终端。

还有，AI 路走歪了，我提醒一下：
Q：你别缠着 XXX 了，不是这边问题
A：我知道了，我绕太久了。已经搞完了，不提了，还有别的问题吗？
Q：sbsbsb
A：(思考：用户打了一串乱码）没事，等您有需要随时来。

gadfly3173

1 day ago

我觉得 GPT5.5 的指令遵循确实不如 5.4 或者其他模型，比如我经常使用的 code-review-excellence skill 中对最终报告的输出有格式要求，GPT5.5 是最偏离格式要求的模型，Opus 4.8 或者 GLM-5.1 、Deepseek V4 Pro 等都可以很好地遵循输出的格式，5.4 会稍微改变一些，但也是基本遵守的。

liuliuliuliu

PRO

1 day ago

不是，我不用 skills 都没这么弱智啊

pinecone1

23h 32m ago

你搞了这一堆 skills ，不如先把 superpower 装上。你这里我别的都没装，Superpowers 就够了，而且我用的还是 gpt 5.4 都能很出色的完成 95% 我的工作。太可惜了，这么好用的东西你用不上。

yjiefl

23h 30m ago

一直用过来，我感觉 5.3codex 编程就很够用了，5.5 成功率更高，没感觉降智。

msg7086

23h 28m ago

最近几天老外论坛有人报 GPT 5.5 疑似降智，可能是为 5.6 发布而调整算力分配，如果你是这两天刚测的，那有这个可能。之前至少没什么问题。
你说的这些我在 Gemini 3.5F 上经常见到，Codex xHigh 上没遇到过。只能说你的描述不符合正常 GPT 模型的水平。至于是官方降智还是什么原因这个我不好说。我这边就只开了一个 superpowers ，别的啥都没装。

msg7086

23h 28m ago

MIUIOS

21h 36m ago

楼主写的这么详细了，楼上都是看都不看上来指责楼主不会用 llm ，v2 特色

yyysuo

21h 27m ago

@MIUIOS 这很奇怪吗，太匪夷所思了啊，万里无一的体验，不怀疑楼主怀疑谁。

robinxplorer

21h 16m ago

用了一次我也感觉过于弱智切换 cc 了

fbu11

21h 9m ago

感觉是被降智的

magicfield

20h 41m ago

这两个月感觉降智很严重，最近都用 cc+d4p 了

nrtEBH

20h 38m ago

@jinsongzhaocn skills 很重要但不是必须的

whitedew

20h 37m ago

@w568w 我靠，本来准备买会员的，你这么说搞得我不知道买还是不买了

coolpenguin

20h 34m ago

这贴看完只觉得很多人基本是没有看完问题再分析的能力吧……只是照着自己预想的情况写结论。

brazz

20h 33m ago

https://imgur.com/a/vnZNXSp

确实糟心，改不掉自创无实现函数的问题，有没大佬指教一下

nrtEBH

20h 32m ago

一般情况下不需要 xhigh 特别是你只是一句话指令用 xhigh 非常容易 over thinking
用 codex 这种偏向 vibe 的客户端非常重要是做好上下文约束直接打开一个 repo 然后开 xhigh 再发一句话没有上下文的指令模型乱搞是可以预期的它不知道你要的是什么
最近在看 github copilot 的实践指南你可以把上下文限定在一段代码一个文件多个文件逐步放开让模型去操作
另外如果有固化的开发流程的确如楼上说的用 skill 把边界，输出，规范全部定好模型才不会乱搞
harness 没那么简单的

Cooky

20h 31m ago

降智了，不降智就很好用，不好用的时候就能觉出来是降智了

ca2oh4

20h 26m ago

@w568w 体感是 gpt 确实比 claude 更健忘

claude 感觉更守规则

4seasons

20h 25m ago

题外话：其实无论是 Codex 还是 Claude ，skills （尤其是自己创建的那种）装的太多，一样会降智。

op 虽然贴了很多示例，但是不清楚上下文是啥，但是就只看例如：“合并代码，先运行编译测试再 commit”，就感觉挺没头没尾的。再例如“把一个代码文件复制到另一个位置”，你可以明确告诉他用“用 cp 命令把 xxx 复制到 xxx”。但是你没有做。

我觉得用这些工具时，首先要抛弃那种：我这个事情可能说的不太详细，但是你懂的（或者你必须懂），懂的都懂的，这种态度。要不然真的会成为那种令人讨厌的老登领导。

shibow

20h 24m ago

你美国朋友注册这个多少钱啊

gumayusi

19h 53m ago

@4seasons 那这还是 AI 吗？比手写 Python 还麻烦

rockddd

19h 50m ago

@gumayusi #94 我也认为指令清晰程度能影响代码一次生成的准确率。产品发给你的需求，说的模棱两可，你听不明白还要追问两句才能完全理解呢，更何况是 ai,毕竟不是神

rxswift

19h 47m ago

建议换成国产模型

ZhaokunZhang

19h 46m ago

我用正版的，没发现这个问题，外面的中转站也没发现，反而公司内的中转站有这个问题。1 、2 、3 ，3 个步骤，1 干错了，2 没干，3 干了。

mooyo

19h 37m ago

我一直用的 API 版，感觉非常良好

liiuyr

19h 36m ago

你这肯定不是正常账号，或者模型了，建议重开个 plus 号试试，不可能这么弱智的

100

swananan

19h 19m ago

很奇怪，我没有遇到过你这样的情况，我是 pro 账号，只使用 5.5 xhigh 。我很少使用 skill ，就几个我自己构建的。你要不要把你三方的 skill 都去掉试试。

codex 指哪打哪，很少会不遵循，偶尔有，说一下也听话了。而且不会擅作主张，比如主动回复 github 这种有副作用的操作，肯定会和我确认的。

1 2

❮

❯