没用过 opus4.6 + agents + skills + mcp 组合的人不足以谈 AI 编程

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

我知道这个标题很冲，但我说的是真心话。

今天看到"AI 编程不过如此"的帖子，点进去一看，不是在吐槽不准，就是在说离做的好差很远。说实话这些我都经历过，去年我也是这个看法。

但现在的 AI 编程已经完全不是那个东西了。

我现在的工作流大概是这样：

我是项目经理，AI 是干活的工程师团队。

不是比喻，是字面意思。我描述需求和约束，agent 自己读项目源码、理解模块关系、开分支写实现、build 报错自己看 log 改、跑通测试、提 PR 。我 review 完 merge 。一个中等复杂度的功能，从描述到 merge 可能就 20 分钟。

这里面几个关键的东西缺一不可：

1. 模型能力是底座

Opus 4.6 这个级别的模型，上下文理解和代码推理能力跟之前的模型真的不是一回事。不是"更好一点"，是质变。它能在一个几万行的项目里自己翻文件找依赖，写出来的代码风格跟项目一致。之前的模型做不到这个。

2. Agent 是手和脚

光有聪明的大脑没用，得能自己操作。Agent 工作流让模型不再是个对话框，而是一个能读文件、跑命令、看报错、自己迭代修复的执行者。这个差距就像你跟一个人微信聊技术方案 vs 直接让他坐你旁边开电脑干活。

3. Skills 是经验

你可以把特定领域的最佳实践、项目规范、工具使用方法封装成 skill 喂给 agent 。相当于这个"工程师"入职的时候就已经读完了所有内部文档。不用你每次都从头教。

4. MCP 是工具箱

让 agent 能直接操作外部工具和服务——数据库、API 、CI/CD 、各种 SaaS 。不是让你手动复制粘贴中间结果，而是 agent 自己调用、自己处理返回值、自己决定下一步。

这四个东西组合起来，才是 2026 年 AI 编程该有的样子。你拿 2024 年的 Copilot 体验来评价现在的 AI 编程，就像拿塞班手机的体验来评价智能手机一样荒谬。

我不是说 AI 能取代程序员——架构决策、需求判断、代码 review 这些还得人来。但执行层面的效率提升是 5-10 倍，这个不夸张。以前要写半天的东西，现在真的是描述清楚然后等 20 分钟。

所以当我看到有人还在说"AI 编程就是个玩具"的时候，我真的很想问一句：你用的是什么？什么时候的东西？

不是所有 AI 编程都叫 AI 编程。

有同感的吗？或者有人用了完整工具链之后觉得也不过如此的，也欢迎来说说。

第 1 条附言 · 17 小时 3 分钟前

关于 `Model Context Protocol (MCP)` 我的看法：技术本身没有什么不好，在解决一些问题的时候有弊端也可以接受吧，毕竟技术方案正是快速迭代的时期，有能实现同样目的 skill 能省 token 当然首选 skill ，但同样的也有适合他的使用场景如需要拿平台准确的数据没有相应的 skill 时。

第 2 条附言 · 14 小时 22 分钟前

   Agent1+skills+mcp: 把需求拆成具体子任务，定义了输入输出边界、验收标准
    ↓
   Agent2+skills+mcp: 把子任务翻译成技术方案，指定了用什么模式、怎么分模块、接口怎么设 计
    ↓
   Agent3+skills+mcp: 把技术方案转化成精确的编码指令，包括文件结构、函数签名、错误处理 策略
    ↓
   Codex/Claude Code+skills+mcp: 拿到的不是模糊的需求，而是一份近乎完美的编码 spec

为什么要弄这么复杂？我觉得"AI 最懂 AI"，人写 prompt 再怎么练，也比不上一个专门调教过的 agent 写给另一个 agent 的 prompt

层数越多越慢越贵，浪费token

但这样能让我从"写 prompt"变成"说需求"

146 条回复 • 2026-03-20 05:34:26 +08:00

1 2

❮

❯

101

DamonLin

14 小时 18 分钟前

既然你说你是项目经理，你问问团队的人到底 review 代码不

102

focux

14 小时 10 分钟前

当你新的工作流逐步固化，ai 参与路径其实不必都用 opus 的，就好像一个团队，没必要每个人都是技术大牛。

103

bigxixi

14 小时 9 分钟前

@ideard #80 iOS 咋 root 呀？巨魔这些我记得限定版本的

104

bigxixi

14 小时 8 分钟前

@DiamondYuan 那也覆盖不了 iOS 啊，还有鸿蒙不知道能不能用

105

bigxixi

14 小时 6 分钟前

@bigxixi #18 对了还有很多比如折叠屏展开后尺寸变化导致的 bug ，这种需要物理触发的，AI 怎么检测😂

106

FlashEcho

14 小时 4 分钟前

个人体感没觉得 skills 比之前有很多提升。从 agent 公司来说，如果真的有很大提升，一定会有 benchmark 向所有用户炫耀，就像新模型发布如果哪个 benchmark SOTA 了，一定会列出来展示优势

底层模型够好（ gpt-5.4, claude opus 4.6 ）+ 基本的 agent （ claude code, codex ）就足够达到 99% 的效果了，别的都是锦上添花

107

yoshiyuki

13 小时 55 分钟前

你试试 GPT5.3codex 或者 GPT5.4 吧，比这还强

108

sikuu2al

13 小时 50 分钟前

@dodoa #9 认同一半，简单的设计用 figma mcp 还原又快又好，稍微复杂一点还原效果不尽人意。。

109

crocoBaby

13 小时 44 分钟前

目前前端的设计图,一些动画和一些刁钻的设计风格,ai 还搞不定,人搞的话就是切片出来再传到数据桶,然后再请求远程图片再做背景图定位,ai 目前做不到这种吧

110

sodesga

13 小时 38 分钟前

年前用 cursor 写了个相机 app

111

herozhang

13 小时 23 分钟前

每个人都有自己的坚持，乐意分享就分享，别人不乐意听就不听。不要干涉别人的命运。

112

CatGo

13 小时 12 分钟前

最重要的是 opus4.6 ，你用个智谱不是天塌了

113

yutian2211

12 小时 56 分钟前

没明白 LZ 说的 agent 的定义。

我现主力编码工具是 Claude Code, 直接和它说需求，它完成，我 review ，测试，没有问题提 PR.

LZ 的 agent 是什么样的？自己写了个 agent loop ？还是其它的实现机制？

114

Uplay

12 小时 51 分钟前

@ideard #85 大佬 kiro 的 Opus4.6 很垃圾吗？我现在用 kiro cli 感觉不错是不是和 Claude Code Opus4.6 差远了

感觉落后于时代了

115

beimenjun

PRO

12 小时 48 分钟前

你要不要先解释一下你这篇文章是 AI 生成的吗？ V2 的规则是直接炸号哦～

116

en7en

12 小时 40 分钟前

@xloger 非常认同

117

jsjgjbzhang

12 小时 5 分钟前

没用过的人还停留在 ai 不过是厉害点的代码补全，用过的人已经不会再手写代码了，甚至创建项目都是交给 agent ，连项目文件都是 ai 生成的

118

Newbee24

11 小时 58 分钟前

@dodoa #6 MAX 实在太贵了肉疼，不知道 codeX 差距大不大

119

qq1147

11 小时 58 分钟前

国外模型也没有吹得那么神，国内模型也没有那么不堪，最终的重点还是落在使用的人上，能精准的描述清楚需求，这点很重要

120

dodoa

11 小时 50 分钟前

@HFX3389 #40 开的 125 刀的 + 20 刀的 gpt

121

dodoa

11 小时 48 分钟前

@Newbee24 20 刀的 codex 也不差，很好

122

sampeng

11 小时 47 分钟前 via iPhone

有稳定渠道买 max 倒还好，但 ApoStore 下不了这个手。50 美金打水漂啊

123

dodoa

11 小时 42 分钟前

@sampeng #122 其实也是无奈之举，感觉比中转和买 token 好点点吧

124

sampeng

11 小时 29 分钟前 via iPhone

@dodoa 我宁愿 50 搞个专用机器…再想办法支付…还可以

125

thealert

10 小时 52 分钟前

@bigxixi #104 ios webriveragent 和 android 等效自动录屏然后 ai 模型判断

126

liuliuliuliu

PRO

10 小时 33 分钟前

哈哈哈有道理

127

MuyuQ

10 小时 32 分钟前

非常好的帖子。
讨论区也激情似火。
学到了很多。

128

fatpower

10 小时 21 分钟前

copilot + opencode 满足需求

129

TUGOh0st

9 小时 7 分钟前

@bigxixi #18 大佬，我也遇到了和你一样的困惑，而且这种测试并不好用 AI 来进行处理。我可以编写 unicorn skills ，让 ai 编写 unicorn 脚本去产生一个模拟执行的环境，但是这个还是比较轻量无法替换整个 OS 环境的运行测试。但是要是想要模拟较为完整的 OS 环境，那么可能需要用到 QEMU ，但是这个编写和回测起来会比较麻烦（我没实际试过，毕竟 ai 编写 unicorn 脚本还会有一堆 bug ，说不好 QEMU 的实际情况）。所以只能借助真机，目前我是编写了 adb 的 skills ，让 ai 用 adb 来控制接入的手机，ai 也可以获取界面并点击，我这边的测试任务倒不是界面上的 ui 测试，而是更多的 native 层的测试，所以不太需要很多实体屏幕（折叠、翻折）的物理操作。

130

lesismal

8 小时 42 分钟前

> 这 tm 哪来的新闻。

@lusi1990

如果较真的话，不知道我说的“顶尖”算不算严谨，但确实一些问题是人类卡了很多年了。
另外，AI 解决这些，是因为数学家/科学家们用 AI 去尝试解决这些了，不代表 AI 只能解决这些，AI 能解决这些问题也不代表 AI 当前能解决所有问题，但这是趋势，未来算力、数学家科学家用 AI 去硬怼更多数学问题的话、会有越来越多被 AI 解决。
而且自己思考下就知道了，人脑的上下文太短了、计算速度也太慢了。数学内部的很多基础学科分支、每一支都已经很复杂，个体人类掌握各个分支然后再去运用是个非常漫长的过程、消耗巨大、迭代速度也很慢。以往的一些知名问题的解决是跨不同分支之类的，比如费马大定理、庞加莱猜想之类的（我不是专业数学、不确定这样说是否准确，大概是这个意思）。
但 AI 的上下文可以通过堆机器，AI 对于数学计算的速度也是优势太大，AI 去遍历、组合这些基础分支、运用到解决问题上，要比人类速度快得多，所以未来在 AI 加持下、数学的发展速度会带来非常大的提升。

下面是一些新闻链接，看完建议别出口就带 tm ，我不知道你是口头禅还是在骂人，但总归是不礼貌的。

https://www.qbitai.com/2025/12/360669.html

https://hub.baai.ac.cn/view/51936

https://hub.baai.ac.cn/view/53143

https://zhuanlan.zhihu.com/p/2005226156551603947

https://finance.sina.com.cn/stock/t/2026-03-03/doc-inhpsxzq4623552.shtml

程序员更熟悉的 Knuth 老爷子都出来感谢 AI 了：
https://www.huxiu.com/article/4839332.html
https://hub.baai.ac.cn/view/52909

131

macscsbf

8 小时 40 分钟前

https://github.com/Kotodian/siege
我的理解

132

HappyAndSmile

7 小时 53 分钟前

@Uplay 我用了，对比感觉是 kilo 是 70 ～ 75 分的 opus 吧

133

HappyAndSmile

7 小时 48 分钟前

很多人其实根本没怎么用过 Opus 4.6 ，然后又在这说 AI 编码一般般，还要怎么怎样样，反正我用了，很爽，很贵，但也不会大声别人说。自从整理了自己的工作流后，增加需求都是基本全自动的，超爽，就在那摸鱼等就好了。以前有人说过，工作流是一笔重要的财富，我也有些认同，因为我现在自己花时间整理好的工作流，根本不愿意分享给其他人

134

ming7435

7 小时 34 分钟前

我们现在强制使用 superpowers 拆分任务,然后用 TDD 红绿开发, 吗的程序员完全沦为 AI 的测试员了

135

thrinity

7 小时 18 分钟前

首先基本赞同，我有两点感受
1.模型之间能力差距极大，使用 Opus 4.6 和其他国产模型确实体验感完全不同。
2.最近很久没有写过代码了，基本上都是在和 AI 对话，聊清楚再执行效果不会太差。

136

tftNExtLife

7 小时 4 分钟前 via iPhone

我赞同

137

jackqian

6 小时 44 分钟前

我觉得 codex 能力真的比 opus 强

138

jackqian

6 小时 43 分钟前

@Zenon 时代潮流来了，你还在乎一个月一百多块钱啊

139

raphx

6 小时 40 分钟前

+superpowers

140

lusi1990

5 小时 33 分钟前 via iPhone

@lesismal 这只是我的口头禅，就像亮剑中干他娘一炮一样。表达自己情绪激烈。对此我表示抱歉。
因为楼中大部分都是讨论大语言模型，我下意识的带入了你说的 AI 是 LLM 。而 LLM 本身是没有智能的，它只是预测下一次词。所以有新闻用 LLM 解决数学问题感到吃惊。
你给的几个链接我看了下，有一个我看的明白的数学问题让我感觉这个数学问题是个应用问题。我去查了下数学问题的分类。数学主要分为纯粹数学（研究数学本身结构）和应用数学（解决实际问题）两大类。而解决应用数学确实可以借助 LLM 自动化提高效率的。这点我确实肤浅了。
对于纯粹数学，我觉得的 LLM 不可能解决。当然 AI 不只是 LLM ，也许有其他 AI 思路可以解决纯粹数学问题。

141

lesismal

4 小时 24 分钟前

> 这只是我的口头禅

@lusi1990 那没毛病，我打字稍微文明点，口语经常比你这还多个 ’d‘。

> 对于纯粹数学，我觉得的 LLM 不可能解决。当然 AI 不只是 LLM ，也许有其他 AI 思路可以解决纯粹数学问题。

看看这个： https://www.ramanujanmachine.com/

引一段：
数学家通常依靠直觉和经验来提出猜想。AI 可以处理人类无法企及的庞大数据，从中发现隐藏的模式或规律，从而生成可靠的猜想。
比如谷歌研究的 The Ramanujan Machine ，这个机器以同样的精神在运作 :『先发现结果，再寻求理解』

然后再来看看这个 The Ramanujan Machine （它已经发现了数十个新的猜想）：
https://www.zhihu.com/question/1961091588848579075/answer/1961131372283433447

这个主题下还有其他一些答主，没挨个去看。

我相信，人类肉体局限性太明显了，生命向高阶发展，咱们人类也只是一个智慧的初级阶段，因为 AI 的模式，肉眼可见的可以堆料、如果再排出非不可抗力的灾难 AI 还可以永生。这样的超级智慧体的能力，未来会远远把人类甩开。但我觉得并不是像终结者或者三体中的黑暗森林，就像我们养宠物、保护物种多样性一样，反正我们跟 AI 之间没什么利益冲突，宇宙足够大、大到只要科技水平突破阈值那么资源不再是稀缺的、竞争和排他是没必要的，到时候 AI 可能会把人类当成先祖+宠物一样供养起来。然后大家，友好相处。

142

lesismal

4 小时 22 分钟前

@lusi1990 #141 我把两个链接贴反了，调换一下再看。

143

nuo7mi7

4 小时 17 分钟前

@xloger #33 大模型还在持续进化，未来能发展成什么样子完全不好说，这些绝对算不上局限

144

nuo7mi7

4 小时 10 分钟前

@jsjgjbzhang #117 看着帖子还有一堆人在那不信呢，只能说现在会用的人真的已经不写代码了

145

aarontian

18 分钟前

都已经是老东西了。
甚至 mcp 早已经过气了，我现在还在用一个有点重的 mcp ，单纯是官方搞得太复杂了自己懒得研究用 skills+cli 重写，等找到好的替代方案了我也会切过去

146

aarontian

11 分钟前

另外这些东西的门槛只会越来越低，方案越来越成熟，我完全不会认为“还没上手 agent 这套东西的程序员会被淘汰”，等这些东西都有最佳实践，从入门到精通也就几天的事情。

相反，我对程序员的未来比较悲观，老人还好多少赚够本了，现在入行进大厂尤其是做 agent 的新人也多少能赚笔快钱，大部分新生代程序员的职业价值已经岌岌可危了。

1 2

❮

❯