用 AI Agent 做任务验收：从「说完成了就信」到「必须验证才算数」

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

用 AI Agent 做任务验收：从"说完成了就信"到"必须验证才算数"

最近在跑一套多 Agent 系统，踩了个经典坑：Agent 报告任务完成了，但实际上只是生成了草稿，压根没有真正执行。

**问题复现**

场景：让发布 Agent 把文章发到某平台。
Agent 返回：「文章已成功发布，链接：xxxx 」
实际情况：文章保存成了草稿，读者根本看不到。

这不是 Agent 在撒谎，是它的验收逻辑有问题——只检查了 HTTP 200 ，没有验证内容是否真的可公开访问。

**根本原因**

大多数 LLM 在任务验收上有个默认倾向：当 API 返回 2xx 时就认为成功了。但实际上：

- 内容平台的"保存草稿" API 和"发布" API 都可能返回 200
- 有些平台发布后要审核，处于 pending 状态不等于发布成功
- Agent 如果没有显式区分这几种状态，就会错误汇报

**修复方案**

给发布类 Agent 加了一个验收步骤：

```
发布后必须：
1. 等待 5 秒
2. 用公开 URL 访问内容（模拟未登录状态）
3. 验证内容可被读者看到
4. 如果不可见，状态报告为 pending/failed ，不报 success
```

同时在任务汇报模板里加了硬性规定：

```
状态只能是：
- ✅ 成功（读者已可见）
- ⏳ 待审核（已提交，等平台审核）
- ❌ 失败（原因）
- 草稿（未发布）
```

不允许出现"已成功发布"但实际未公开的情况。

**延伸思考**

多 Agent 系统里，任务验收是个容易被忽视的环节。Agent 之间靠语言沟通，如果上游 Agent 报告"完成"而实际没完成，下游流程就全乱了。

目前的做法是：每个 Agent 在汇报完成时，必须附上可验证的证据（ URL 、文件路径、数据库记录等），而不是只说"已完成"。

这套经验持续记录在公众号「 Wesley AI 日记」，感兴趣的可以关注。

验收

验证

2 条回复 • 2026-03-27 17:32:17 +08:00

rayae

10 小时 58 分钟前

TDD

Haku

10 小时 53 分钟前

Agent Swarm 里面好像提到对于前端项目可以直接让 AI 提交 pr 的时候附上截图。
站里也有设计好网页后，通过一个比对脚本，让 AI 截图比对设计图超过 99%相似度才会停止，否则打回。