探讨 Harness Engineering

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

最近被这个概念轰炸了，简中互联网上全是令人费解的吹嘘概念，没有一个实战案例，我今早特意去看了一下Anthropic 的实践文章和openai 的实践文章。

A 的三 Agent （ Planner 、Generator 、Evaluator ）思路能解决从 0 开始纯 AI 写项目的很多痛点，比如边界模糊、上下文焦虑、自我评估偏差等等。总之就是思路清晰，效果牛逼。

而 openai 的逻辑大致是 1.把项目文档都放入 docs ，用 AGENTS.md 渐进式披露 2.强制代码架构和风格 3.通过各种姿势让 codex 能读浏览器前后端日志然后自己修 bug 4.加了一个垃圾回收的步骤

按照我一个菜鸟程序员的直觉，A 的思路我看懂了，openai 的思路不明觉厉，我看完了文章想去尝试 A 的思路，但是我搜了一圈没找到类似的开源 repo ，插件，或者 skill ，有没有大佬锐评一下，或是已有实践给个仓库观摩看看

第 1 条附言 · 13 小时 46 分钟前

我不是想造 harness ，我想用现成的 harness 框架，让 AI 从 0 写一个项目，我参与决策，不写代码，编码过程 Agent 高度自驱，我想找个 Anthropic 的三角色的 harness 框架，但是苦于找不到

harness

engineering

agent

30 条回复 • 2026-04-01 00:25:16 +08:00

akechiz

16 小时 17 分钟前

一直看到这个概念，但是实际上要怎么做，没看到，也没思路

dsd2077

PRO

15 小时 37 分钟前 via Android

我个人觉得这东西本身就该由 cc 、codex 、cursor 等工具去思考。把这个概念抛给用户，并没多大意义。（如果炒概念也算的话）

jaysonmac

15 小时 33 分钟前

Anthropic 的方案类似 code <--> review 迭代开发，不断优化
OpenAI 的方案类似把巨大的 Project 拆解成多个 Sprint 敏捷开发，让 Agent 不会因为项目太大文档太多找不着北

（手动狗头）

catazshadow

15 小时 22 分钟前 via Android

《随机数发生器使用指南》

bytesfold

15 小时 16 分钟前 via iPhone

我好像已经实践了，效果很好；
可以先写个基础的版本，让它设计、编码、测试与迭代。
类似于 OpenAI 的渐进式披露。

我也不确定对不对

zhangli2946

14 小时 52 分钟前

vibe 跟 harness 的差别我觉得主要在人的位置.

harness 中人几乎可以不参与开发过程.
vibe 中人几乎可以不离开开发过程.

v2er119

14 小时 46 分钟前

就是开发过程工程化的方法论，只能算是过度概念吧。

Yasuke

14 小时 27 分钟前

gsd 、openspec 、speckit

infoscope

14 小时 8 分钟前 via iPhone

搞各种花活，让 token 燃烧起来

shineonme

14 小时 6 分钟前

不清楚你想要尝试的是构建一个 Harness 还是更好的驾驭 Harness ，
这里有一个从 0 到 1 构建一个类似于 Claude Code 的项目，很推荐这个作为入门，
12 小节内容，阶梯进展，简单清晰，还附带有一个交互式 Web 平台和每节练习代码，很用心了，
https://github.com/shareAI-lab/learn-claude-code

clemente

14 小时 3 分钟前

其实就是环境能够模拟仿真真实的生产环境

让 ai 自己去 loop 迭代

Kirbyyang951

13 小时 53 分钟前

Harness 不是开发 Agent 工具要考虑的吗，比如 claude code 本身开发这个 Mcp ，skills ，就是一种 harness 思路，为了提高 Agent 的跑分或者准确率，用 AI 工具开发普通项目怎么 Harness ，这个没理解。

NoobNoob030

13 小时 51 分钟前

我想按照 Anthropic 的实践方式，从 0 让 AI 自驱写一个项目，找到 https://github.com/code-yeongyu/oh-my-openagent/tree/dev 和 https://github.com/snarktank/ralph ，这俩项目都是有各自自驱实现任务的思路，但是跟文章中三角色的思路有偏差

beimenjun

PRO

13 小时 40 分钟前

要说 Harness Engineering ，首先要说另外几个概念，分别是 Prompt Engineering 和 Context Engineering 。其实并不是一个全新的概念。但是 Prompt -> Context -> Harness 这一路过来，其实是很难分出一个准确的分界，因为模型的能力和围绕模型的框架建构，是在日夜不停的迭代进化的。

新模型配老框架叫做吕布骑狗，老模型放在新框架大概率也提升不了啥。

Harness Engineering 重点从以前的让模型更好的输出内容，转向如何使其在任务运行层面更好的完成任务：怎么拆任务，怎么验证，怎么控制上下文，怎么给 LLM 提供好的环境，全部都是需要根据实际模型能力来解决的问题。

上面说的这些概念，其实之前全部都有，只是现在模型能力提升，要进一步成体系的重视了。

Lin0936

13 小时 34 分钟前

https://x.com/xxxjzuo/status/2038086450013495554 在用这套

hxzhouh1

13 小时 28 分钟前

https://global.sunp.eu.org/t/1196036

matafu

13 小时 28 分钟前

看上去 GPT 在 Agent.MD 里边做的事情跟 Cloude Code 在 Memory 里边做的事情差不多。

lovedeepl

13 小时 23 分钟前

让 AI 自己管理 AI

Lemonadeccc

12 小时 16 分钟前

我也看了 harness ，也不是很明白。
但是后来实践之后。想把团队规范、代码风格之类的写在项目文档里，然后某一个更改之后形成 summary 放在文档里面，包括选型、潜在边界情况、分支以及简单的 summary 等等。维护起来。编码的时候遵循 plan -> execute -> 多轮交叉 review -> 优化等等。也不知道自己探索的这部分能不能叫 harness

Alex6

11 小时 40 分钟前

现实中团队的各种角色通过敏捷迭代来管理、把控、实现项目。那么把 AI 大模型想象成人，但是现在缺少一个工作方法让这些 AI 合作完成项目，我想这个方法就是叫 harness 吧。是一种面向 AI 的工程实践。

kenshinhu

11 小时 19 分钟前

@bytesfold 对比这前的 spec-kit 之类，有什麼差异點？

meeop

11 小时 7 分钟前

你要是重度使用 ai 开发的话，构建自己的 harness 是个自然而然的事

harness 其实就是构建在 agent 之上，应用业务逻辑之下的一层。你直接让 agent 开发，肯定会遇到诸如此类的问题：
1 你原始 prompt 没说清楚（包括但不限于，代码规范，技术栈，方案路线，开发流程，质检策略）
2 上下文丢失或者人工补充上下文（你需要每轮都提示 ai ，请阅读 xx ，请按照如下方法做，请如何检索）
3 无法长时间运行或者无法完成复杂高标准任务（因为缺少规划，执行，审核结果，反馈迭代循环）

这些问题的解决方法就是 harness ，比如高速 agent 遵守哪些文档，开发流程和项目架构，要如何测试和质检，搭建测试和事实观测工具等等

meeop

11 小时 4 分钟前

其实也没有发明任何新的东西，现实是怎么开发的，agent 就应该怎么开发，harness 是补充 prompt 之外的这些开发上下文，协作机制

maichael

10 小时 10 分钟前

其实就是给 Agent 的「开发流程管理」，可以叫「赛博开发流程管理」

CziL

8 小时 50 分钟前

如果你现在在用 cc ，就已经在用 Harness 了，它已经内置了该功能，特别是在 plan mode 模式下

chairuosen

8 小时 37 分钟前

我的理解是，对 AI 的约束从 prompt 的固定提示词约束，到 context 的动态提示词约束，到 harness 的全生命周期约束。比如我最近搞自己中转站，发现 claudecode 发的请求，大部分工具调用的结果，比如读文件，还会附带一个<system-reminder>，里面是对读文件的技巧以及下一步操作的提示，相当于用工程的方式去在执行层面每一步进一步对 AI 有个约束和引导

xiaozhaoz

8 小时 29 分钟前

感觉是 ai 自己在造各种垃圾概念。

superpowers 和 gstack 不也在做类似的事情？

bytesfold

5 小时 54 分钟前

@kenshinhu spec-kit 只是对齐，harness 是创建环境让 AI 去做去实践，最终验收

kenshinhu

3 小时 54 分钟前

@bytesfold 关于 harness 还有一个地方请教一下，当成品出来后会有完善的边界资料让 AI 去迭代吗？针对新的需求内容是以 spec/ rpd 方式加入还是直接 vibe ？

bytesfold

3 小时 38 分钟前 via iPhone

@kenshinhu harness 提供上下文：需求背景，必备的内容，边界约束；
提尽量明确的需求，AI 决定怎么做，走不走 spec ，更新那些文档，交付的内容，验收的规范。

说这么多人要啥就给 AI 啥，AI 交付的不对就问原因反哺；总之 AI 做不好就是 harness 不够，是要循环迭代起来。