V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
caesor
V2EX  ›  程序员

用 AI Agent 做任务验收:从「说完成了就信」到「必须验证才算数」

  •  
  •   caesor · 13 小时 25 分钟前 · 398 次点击
    用 AI Agent 做任务验收:从"说完成了就信"到"必须验证才算数"

    最近在跑一套多 Agent 系统,踩了个经典坑:Agent 报告任务完成了,但实际上只是生成了草稿,压根没有真正执行。

    **问题复现**

    场景:让发布 Agent 把文章发到某平台。
    Agent 返回:「文章已成功发布,链接:xxxx 」
    实际情况:文章保存成了草稿,读者根本看不到。

    这不是 Agent 在撒谎,是它的验收逻辑有问题——只检查了 HTTP 200 ,没有验证内容是否真的可公开访问。

    **根本原因**

    大多数 LLM 在任务验收上有个默认倾向:当 API 返回 2xx 时就认为成功了。但实际上:

    - 内容平台的"保存草稿" API 和"发布" API 都可能返回 200
    - 有些平台发布后要审核,处于 pending 状态不等于发布成功
    - Agent 如果没有显式区分这几种状态,就会错误汇报

    **修复方案**

    给发布类 Agent 加了一个验收步骤:

    ```
    发布后必须:
    1. 等待 5 秒
    2. 用公开 URL 访问内容(模拟未登录状态)
    3. 验证内容可被读者看到
    4. 如果不可见,状态报告为 pending/failed ,不报 success
    ```

    同时在任务汇报模板里加了硬性规定:

    ```
    状态只能是:
    - ✅ 成功(读者已可见)
    - ⏳ 待审核(已提交,等平台审核)
    - ❌ 失败(原因)
    - 草稿(未发布)
    ```

    不允许出现"已成功发布"但实际未公开的情况。

    **延伸思考**

    多 Agent 系统里,任务验收是个容易被忽视的环节。Agent 之间靠语言沟通,如果上游 Agent 报告"完成"而实际没完成,下游流程就全乱了。

    目前的做法是:每个 Agent 在汇报完成时,必须附上可验证的证据( URL 、文件路径、数据库记录等),而不是只说"已完成"。

    这套经验持续记录在公众号「 Wesley AI 日记」,感兴趣的可以关注。
    2 条回复    2026-03-27 17:32:17 +08:00
    rayae
        1
    rayae  
       10 小时 58 分钟前
    TDD
    Haku
        2
    Haku  
       10 小时 53 分钟前
    Agent Swarm 里面好像提到对于前端项目可以直接让 AI 提交 pr 的时候附上截图。
    站里也有设计好网页后,通过一个比对脚本,让 AI 截图比对设计图超过 99%相似度才会停止,否则打回。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   908 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 20:26 · PVG 04:26 · LAX 13:26 · JFK 16:26
    ♥ Do have faith in what you're doing.