V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

直接上菜：GenericAgent

https://github.com/lsdefine/GenericAgent

本人基本信息：国内某 top3 的计算机博士在读，大模型方向。

最近对 cc 的使用情况：

我最近在 github trending 上关注了 GA 这个项目，并高强度使用了一周多（完全接管我的科研+生活），然后我就卸载了 cc 、codex 和 openclaw（但是感谢 cc 曾经在我的生命中出现过，不过 openclaw 你是真的垃圾啊）。。

那么有人问了，cc 那么屌，openclaw 被吹的那么神，有什么问题？我想但凡用过的人此时在心里都有答案了。。

下文的数据来自 arxiv.org/abs/2604.17091，也就是 GA 的技术报告，里面有些 insights 我非常喜欢，而且我的风格也是用数据说话。

一、你的钱包顶得住吗？

打一个招呼，oc 要用 4w tokens ，cc 和 codex 也是 2w tokens 打底了，真当我 token 不是花钱买的？

在长程任务上，GA 能够用更少的预算（ 1/3 或者更少）获得一样甚至更好的效果。

GA 有无敌的原生浏览器操作，能用非常夸张的极低的预算（1/5 左右）实现非常非常 nice 的网页搜索、浏览器操作（1-3 倍的成功率）。

插个题外话，我就是做 deepresearch 的，论文里选的 browsecamp 、webcanvas 这些数据集是非常有挑战的，也给我打开新世界了 hh

最近看大家都在流行 claude code 的各种 web 插件，我的嘴角慢慢上扬。说实话，ga 的原生浏览器操作吊打所有的 web 插件，不服来战（本人已服）。

二、更好用的智能体一定能自进化

这也是最近 hermes 风头正盛的原因。在这一点上，我认为 GA 做的更好。

不要谈参数自进化，因为我认为的自进化就是 agent 对错误经验的总结学习，就像人的进化就是在直立行走之后能够制造和使用工具，而不是长出第六根手指。

直接上结果，oc 就不谈了，纯垃圾。。看 codex 和 cc ，实际上由于这两者的定位（ coding ），所以他们是不会自主的总结重复的工作经验的。如果你每次都让他们做一些崭新的项目，那当然没问题，但是你要是让他们去追踪股票，能够按你一句话帮你去网上填表，去做你日常做的操作，那他们每次探索的成本则是巨大的。

GA 的自进化机制让 GA 得以越用越快，越用越方便（最后甚至能到心领神会的地步。。）

依旧吊打 oc ，oc 赶紧下桌吧。。

三、好的智能体离不开记忆

我知道大家这时候说了，LLM-Wiki 很吊，Evermemos 很吊，Mem0 很吊，我装这些插件就能让我的智能体有记忆。

先不谈这几个插件到底真实性能怎么样，我作为一个看了很多 memory 论文的从事大模型的人来说，作为一个 agent 的 memory 框架：

测 Locomo 、LongtermMem 这几个数据集就是不合适的！ 现在的大模型的记忆不再是 user-centric 了！现在我们需要的大模型记忆是 task-centric，这两者有本质的区别。

所以，停止人云亦云吧。。

我深扒了 GA 的记忆设计，其简洁性和有效性真的令人印象深刻，但是在这里就不展开（如果大家感兴趣，我可能再开一篇帖子详细讲讲）。

我现在对 GA 的使用如图：

有什么记不得的，直接问就好了。。太 tm 牛逼了。

彩蛋

另外，我是第一次在 V2EX 发帖，发现这图床都要买。。然后也让 GA 给我整了一个，就一句话：

嘿嘿。。最后放一张 GA 自己的 skillhub 里的截图，懂的人自然知道干啥用的。

写在最后

还有很多没提到的，大家自己尝试就好了。当然 GA 也有很多让我不爽的地方，比如极其简陋的前端，然后我就在 GA 的群里潜水，最后发现了，大概是开发者的个人风格就是毛坯房的风格。。问他能不能给整好看点，他回答也简单：

他说 "你让 GA 给你做"。。真的无敌了。。

我不允许还有人不知道 GA ！！！！

如果这个帖子有点热度，大家有要求的话，我可能会从专业的角度展开讲讲 GA 的技术实现方法，太 tm 优雅了。。

Supplement 1 · 18h 57m ago

第二篇帖子系统的分析了 GA 的设计思想：见 https://www.sunp.eu.org/t/1211308#reply0

智能体

浏览器

学习

258 replies • 2026-05-09 19:13:21 +08:00

1 2 3

❮

❯

defunct9

1 day ago

不优雅的地方：对 Linux 不友好，必须要装个 X-win ，弄好了 x-win ，又要弄个 py-win 的，不知道能不能开个 web 好了。为啥非要跑个窗口呢。

zzzzz024

1 day ago

只支持 api key 吗，订阅额度可以用吗

yesha

1 day ago

试试

h4nru1

1 day ago

@defunct9 为什么？你的 linux 有 python 环境直接 python agentmain.py 不就好了。。

h4nru1

1 day ago

@zzzzz024 支持反代，不过反代要你自己整一下。建议左脚踩右脚（先买 ds 的 api ，然后让配了 ds 的 ga 帮你弄反代）

h4nru1

1 day ago

@defunct9 而且有 webui 的应该。。前端确实烂

stimw

1 day ago

> 测 Locomo 、LongtermMem 这几个数据集就是不合适的

这个能详细说说吗

fj19

1 day ago

这算是广告吗

h4nru1

1 day ago

@stimw 这些数据集里的数据都是 user-assistant 的对话堆起来的，然后让模型去 recall 用户提及的细节、偏好等等；但是现在 agent 的模式是任务式的，user 说一句，assistant 要跑好几十轮，召回的主体也从用户细节变成了任务细节（实现 task 中的某个具体步骤）。那原先的测评明显就不合适了。。

h4nru1

1 day ago

@fj19 算，但是你如果花了 5 分钟体验的话，你会感谢我的

defunct9

1 day ago

折腾了半小时，放弃了。滚回去用了 hermes 。

Dream4U

1 day ago

对这种一边贬低别人，一边自己牛逼吹得山响的项目，直接拉黑，试都不会试。

giter

1 day ago

上联：拳打 Claude Code
下联：脚踢 Codex
横批：牛逼坏了

h4nru1

1 day ago

@Dream4U 对这种把 benchmark 结果当贬低、把数据对比当吹牛的阅读理解能力，直接理解，跪久了的确站不起来。

h4nru1

1 day ago

@defunct9 何不把 key 和 github 链接给 Hermes ，让他帮你装？如果他这都做不到，你留他有什么用？

h4nru1

1 day ago

@giter hhh ，正是如此。感谢你帮我说出了心里话

QAZXCDSWE

1 day ago

有没有想过一个问题，这么牛逼 A\都融资超过上千亿美元了，这项目是不是要国家队接见？

HFX3389

1 day ago

agent 类太多了，官方的 CC CX ，还有 pi warp ，再加上这个

h4nru1

1 day ago

@QAZXCDSWE 牛啊，你咋知道的？ https://content-static.cctvnews.cctv.com/snow-book/video.html?item_id=13518694563795549236&t=1773563661926&toc_style_id=video_default&track_id=0BAABA6E-360D-41E2-8215-0FA7EA0D1262_795260339862&share_to=wechat

thet

1 day ago

用起来也太麻烦了

h4nru1

1 day ago

@QAZXCDSWE 要不再看看这个？ https://www.sohu.com/a/997224735_121198369

h4nru1

1 day ago

@thet 我帮你催催开发者让他们再降点门槛

K332

1 day ago

就是一个插件吧，核心功能还是其他三方模型，只是这个插件的优势是能省 token 和自己总结使用记录写 skill 。

另外 v 站发帖图床不用买啊，默认用 imgur 的就行了。

h4nru1

1 day ago

@K332 省 token 、自进化。还不够吗？

teaguexiao

1 day ago

用了半年 claude code 最大的感受是它的 context 管理和记忆机制确实是硬伤，每次开新会话都要重新喂背景，GA 的连续学习机制看起来确实解决了这个痛点。去看看这个项目，感谢分享！

K332

1 day ago

@h4nru1 #24 额，这个省 token 是因为上下文不到 30k ，但是现在的 token 缓存计费很低，输入输出高，所以实际上这个看上去消耗 token 少，但是真计费不一定比其他少。至于 skill 自进化这个可有可无吧，让 claude 自己总结历史写个 skill 也差不多的。

h4nru1

1 day ago

@K332 建议看技术报告的 2.1 章节。如果你感兴趣我可以再开一篇帖子详细讲讲。推荐你看一下这三篇论文： https://arxiv.org/abs/2307.03172
https://arxiv.org/abs/2410.18745
https://arxiv.org/abs/2302.00093
上下文长度的选择不光是从成本的角度考虑。

horizon

1 day ago

top3 是哪所大学

h4nru1

1 day ago

@horizon 那有点多。。

superares

1 day ago via Android

不支持订阅，还要自己弄反代的就不考虑了

testboy

1 day ago

推广就直接说推广。。对，你是博士，这个是复旦开发的，是吧。。
牛。。真牛就用不着到处找人发水贴了。

rtv

1 day ago

评价讨厌靠贬低别人来抬高自己，在 op 眼里就是跪久了，很好奇在 op 眼里是不是和你不一样就是跪？

utodea

1 day ago

DeepSeek 的缓存命中率还挺高的，高强度用了一阵子感觉价格还能接受。我也在写一个 deepseek-cli ，看看你这个是咋省 token 、自进化的，学习下。

https://github.com/usewhale/whale

Justin13

1 day ago via Android

模型原厂的优化和 token 价格是三方难以比拟的
比如 codex plus 20 刀，但你如果按 api 价格算每月能用到 200 刀
这怎么比？所以三方的我全都不用了，cusor 也准备退了
而且 codex 进化的非常快，你提到的记忆，电脑使用，浏览器使用也都支持了
对我来说最划算的就是开两个 plus,每月 250
一个上最新模型解决复杂长注意力任务，5 小时内也就干 2,3 个吧
另一个上 5.3 codex,日常任务完全胜任，非常耐用

yinanc

1 day ago

嘉豪

herozzm

1 day ago

软文

wubajie

1 day ago

软文

Razio

1 day ago

牛逼哥，我只想说，工作是工作，论文是论文。说的再天花乱坠，大家上个 B 班，该用啥还是用啥。
打比方，Claude 模型大家公认，你突然来个 Abc ，吊打 Claude ，不做评价，只是说在大家口口相传之前，没人会搭理你 Abc

xingyue

1 day ago via Android

单轮上下文确实短，但是也有问题，稍微复杂点的问题能整出几百轮然后死循环最后也解决不了问题，实测下来，用来做编码 agent 并不好用。

darksword21

PRO

1 day ago

你是博士≠你说的对

不好意思有点怀疑你 top3 博士的真实性（我是学渣），但是你确实有种认知低下的美

re2ikotr

1 day ago

自吹自擂真的是闹麻了

h4nru1

1 day ago

@rtv 哪一篇 benchmark 论文没有在对比？所以都是贬低吗？讨厌纸上谈兵的半吊子随便否定别人。另外，1 、我贬低 cc 了吗？ 2 、oc 不垃圾吗？ 3 、你说的 op 是啥？

h4nru1

1 day ago

@Justin13 对于不折腾的人来说 codex 和 cc 是最佳选择

h4nru1

1 day ago

@utodea 技术报告和代码都开源。可以详细看看。一句话两句话说不完。。

h4nru1

1 day ago

@Razio Claude 模型和 Claude code 是一样东西吗

h4nru1

1 day ago

@darksword21 我是博士≠我说的对你是学渣=我有种认知低下的美

h4nru1

1 day ago

@Justin13 你会反代的话，codex 订阅的额度随便拿出来用

h4nru1

1 day ago

@xingyue 用作编码 agent 需要配合 codebase-memory-mcp+开 plan 模式，完全能够胜任中性任务。

h4nru1

1 day ago

@re2ikotr 所以你真的打开技术报告看了吗？另外 https://www.sohu.com/a/997224735_121198369 是自吹自擂吗。。

Desiree

23h 48m ago

楼主大方放广告区，没必要跟 v 友对线，既然你的卖点是技术而不是营销

HappyAndSmile

23h 37m ago

你发这些和你 top 几有什么关系呢

deplives

23h 16m ago

[本人基本信息：国内某 top3 的计算机博士在读，大模型方向。]
看到这个我咋有点想笑？不知道的还以为来相亲的

h4nru1

23h 16m ago

@Desiree 分享等于广告？吐槽等于贬低？好好问问题的都在好好解答，不好好说话的我也不客气。

@HappyAndSmile 为了让你应激

h4nru1

23h 15m ago

@deplives 大大方方笑😂

defunct9

22h 57m ago

@h4nru1 问题是 README.md 里写的 quickstart 都是 python launch.pyw ，我按着你这篇来的噻；还特意弄了炼丹的 ubuntu 搞了 x-win ，弄完让 agent 自己装你哪个例子也是一堆报错，这不是兜头一瓢凉水。用 hermes 也是直接 cli 配完就用，没这么多报错

frank1256

22h 52m ago

发小红书更好一点。

Msxx

22h 51m ago via Android

一股推广味儿还装模作样，发个搜狐新媒体链接，真当没人不知道即使挂搜狐的账号名发也要不了百来块钱是吧

h4nru1

22h 50m ago

@defunct9 1 、git clone 2 、检查你的 python 环境有没有装 pywebview 和 streamlit 这两个包 3 、按照指定的格式在 mykey_template.py 填写你的 key 并改名为 mykey.py 4 、python agentmain.py 并在命令行中对他说帮我安装全部依赖。5 、python launch.pyw
具体教程 https://datawhalechina.github.io/hello-generic-agent/part1/chapter1/
注意下载一个全新的 ga ，因为有可能代码被你的 hermes 破坏了。。

h4nru1

22h 48m ago

@Msxx 点开看看呗？请问受广东省委书记和省长点名表扬要花多少钱？上央视 13 要花多少钱？请您开价。

canyue7897

22h 46m ago

弱弱问一句，top3 是浙江大学么？应该不是清北吧。

h4nru1

22h 45m ago

@canyue7897 哈哈哈哈哈哈哈哈，众所周知，top3 有很多

defunct9

22h 44m ago

@h4nru1 回头再试吧，估计得弄台 Windows 的虚机，估计会比较顺畅

orion1

PRO

22h 43m ago

1 你在说什么？
2 我不觉得 gpt 贵

h4nru1

22h 41m ago

@defunct9 我对这东西的理解就是，全责对等，完全替代生产过程。他不是玩具，因为玩具的话放个新环境玩两天也就差不多不用了。。你一般用哪台电脑，就在哪台电脑上装就好了，至于 win 上优化最好，是因为开发者用的是 win ，实际体验下来，mac 也很好用，linux 有个问题就是很多浏览器都是无头的，而且没办法模拟键鼠操作（没有界面）

h4nru1

22h 40m ago

@orion1 便宜就使劲蹬

jerseyhero

22h 14m ago

佬，我用它测试了一下玩 Unity 做的网页游戏，它使用截图+OCR 可以分析游戏画面，但是死活做不到点击按钮。这个是需要安装什么 MCP 么？

h4nru1

22h 8m ago

@jerseyhero 截图点击有个大坑，就是现在的模型分不清“绝对坐标”和“相对坐标”、“物理坐标”和“逻辑坐标”，建议你在提示词中显式提醒模型分清楚上面四种坐标。接着，提示模型用我们内置的 ui_detect 去识别按钮位置（一般微信的那种按钮都能识别到，发微信朋友圈测试过没问题），基本就差不多了。如果要安装 mcp ，直接网页地址丢给他，告诉他改造成你能用的格式，就好。不再存在所谓的“安装”了。

lmmlwen

22h 6m ago

有点意思

slert

22h 4m ago

是你自己开发的吗？

naythefirst01

22h 3m ago

闹麻了，你的项目要是真牛 B 就去和其他同类项目 battle ，好用自然会在圈子里传开，从其他站到这里，总是搞这种营销标题，正文写得像得了亢奋症，整天踩一捧一看着就烦，block

h4nru1

21h 59m ago

@naythefirst01 我甲亢

jsq2627

21h 55m ago

虽然这个帖子一拉一踩令人反感，但是能省 token 的 Agent 就是好 Agent

h4nru1

21h 53m ago

@jsq2627 yes ！帖子是我个人的行为。但是真的吐槽也算拉踩吗。。 = =

Bad0Guy

21h 45m ago

@h4nru1 “ga 的原生浏览器操作吊打所有的 web 插件，不服来战”随便拉出来一句话都是拉踩，推广就好好推广，学 uc 震惊部发帖就去小红书发去

h4nru1

21h 41m ago

@Bad0Guy 事实就是吊打，有实验证明。你有更好的方案也可以给我看看。如果这件事实让你觉得太夸张了，对不起不是我的问题

Attenton

21h 36m ago

特意专门注册个账号来推广。。。被人戳穿还急
另外 xiaoyanghua 知识图谱搞不下去转头搞 agent 了？

h4nru1

21h 31m ago

@Attenton 你说了三句话，哪句是有事实依据的事实？不要变成自己讨厌的样子哦

Bad0Guy

21h 22m ago

@h4nru1 首先我觉得 12 楼说的没错，其次我觉得你的帖子里的语言组织能力不是一般的差，你觉得项目厉害首先该展示的是你用这个项目做成的具体成果，而不是上来就摆 benchmark score 。整篇帖子排版逻辑乱的像个刚进单位的实习生发的文章。V 站基本以程序员为主，你说你是 cs 博士？“我是第一次在 V2EX 发帖，发现这图床都要买”听着我都觉得好笑，帖子里上下看了一遍，挺赞同 31 楼、38 楼的说法

huaweii

21h 15m ago via Android

一眼看上去和 hermes 比起来看不出明显优势

h4nru1

21h 6m ago

@Bad0Guy 1 、benchmark score 就是具体成果的量化，这是学术界通用做法，不是我发明的。2 、排版确实一般，第一次发帖，认。3 、图床那句是事实描述，不知道默认用 imgur 很好笑吗。。4 、31 楼说推广，分享开源项目叫推广的话 V2EX 一半帖子都是推广。38 楼说没人搭理，GitHub star 和 Datawhale 收录你可以自己去看。5 、语言组织能力差不差跟项目好不好用有关系吗。。你要觉得技术不行，拿东西出来说，别光评价我作文写得好不好

Bad0Guy

20h 40m ago

@h4nru1 学术归学术，这里需要的是实际可直接落地的项目，而不是 benchmark ，御三家每次发新模型后就 benchmark ，真上手后又不一定跟 benchmark 的结果一样，大部分人都看厌了。V 站里跟 Google 都有关于图床的免费教程帖在，都读到博士了信息检索能力还这么差？好的帖子内容写的能让 V 友一眼就知道 ga 能做什么，那么大家自然都乐意去尝试，你叽里咕噜说了一堆学术性的东西+拉踩 cc/codex/oc 最后就摆了个 skill 的合集跟用 ga 发了个帖？那除此之外它能实现什么你拉踩的这三家做不到的事？做题做到人做傻了？

fishlium

20h 34m ago

我使用了一周了，这个浏览器操作确实不错，有人也提取了一个 mcp 。我把 openclaw 上的一个工作流程迁移过来，遇到一些问题。一个是这个不支持多智能体，这个还不是主要的，主要是这个经常运行会没执行中断，还有会出现上下文丢失，经常让他继续，他都不知道上一句是干撒的呢，去干很久以前的事

h4nru1

20h 28m ago

@Bad0Guy 1 、事实是我懒得信息检索。会弄图床很了不起吗？是你检索相关教程然后按步骤操作快还是我打一行字快？ 2 、你看不懂的东西不代表别人看不懂 3 、我不是你们 v 友，不知道你们规矩这么大，假如触犯你们天条了，那我认罪认罚 = =

h4nru1

20h 25m ago

@fishlium 麻烦关注我的下一篇帖子，我会具体讲如何实现多智能体。在我们的视角里，多智能体是在约束下催生的涌现能力：主 agent 完全可以通过 code_run 去调用自己，然后起 agent team 。ga 本质上也可以自 cli 。至于上下文的问题，可能需要你提供更具体的信息才好判断。

fishlium

20h 20m ago

@h4nru1 现在是用 subagent 替代的，本质上很多情况其实用不到 agent team ，agent team 主要还是探索使用，但是要自己启 agent team 还是有很多问题要解决的。上下文这个问题我自己也在看，而且我最近发现好像通过飞书比通过自带的 streamlit ui 更容易出现这个问题，按理说是没有关系的。

h4nru1

20h 15m ago

@fishlium 飞书有可能是因为他的卡片有 200 的的元素变化的限制，你更新最新版代码这个问题应该解决了。subagent 是为了隔离上下文，防止污染，如果你自己脑海里有明确的想法，可以在提示词中显式的提示；通过 plan 模式可以天生解决这个问题，plan 模式+监察者本质上就是多 agent 协作。启动方式，在提示词中写：开 plan 模式帮我 xxxx

Bad0Guy

19h 54m ago

@h4nru1 你打那一行废话的时间都能让 agent 检索完信息并且粘贴了，跟了不起没有任何关系。其次你自己看看评论区有几个人是能耐心看你 bb 一堆所谓的 score ？都读到博士了连宣传项目的帖子都不会让 AI 润色下然后再发？🤷

h4nru1

19h 50m ago

@Bad0Guy 我就是不想用 ai 润色，人与人的交流最重要的就是真诚，我想怎么说怎么说。“其次你自己看看评论区有几个人是能耐心看你 bb 一堆所谓的 score”，不要以己度人:)

Bad0Guy

19h 39m ago

@h4nru1 是我以己度人还是你这个所谓的“博士”对于评论区的理解能力比 AI 还烂？

gbin

19h 33m ago

看了下 GenericAgent ，本质还是 computer use 那套，操控浏览器去点点点。

我自己试下来这条路走不通。拿 X 举例，用浏览器操控搜个推文，截屏+识别+点击+等渲染，一趟下来十几秒、几千 token 。我直接写了个 skill 调 X 的 GraphQL API ，200ms 回来结构化 JSON ，token 消耗大概是前者的 1/10 。

浏览器适合一次性的事情，高频操作还是得走 API 。代价就是每个平台要写一遍脚本，但写完就是纯收益。

h4nru1

19h 24m ago

@gbin 有些必须要点点点的，比如微信操作，那点点点总没错吧，但是不需要点点点的，当然直接用 api 更好咯～总之有这个能力，当然比没有好很多

onedge

19h 14m ago

是不是比它省 https://github.com/rtk-ai/rtk

gbin

18h 55m ago

@h4nru1 理论上都可以 API 画，MS Teams 本质上和微信一样，也可以全部 API 自动化 https://github.com/sigcli/sigcli/tree/main/skills/msteams

我认为未来浏览器不在被需要，AI Agent 就是用户流量入口，所有系统都必须支持 AI Agent 友好的接口

h4nru1

18h 54m ago

@gbin 非常认同！所有的程序入口都应该是设计给 llm 看的！

h4nru1

18h 46m ago

@onedge 不清楚不了解不敢妄下判断

h4nru1

18h 19m ago

@Bad0Guy 我只看到今天 github 又点了几百颗星，马上快一万啦！谢谢 v 友～

chipipi

18h 12m ago via Android

真降低门槛通知一下🥹

h4nru1

18h 3m ago

@chipipi 直接进群喷开发者

h4nru1

18h 3m ago

@chipipi 进群 @他们，催催

100

chipipi

17h 36m ago via Android

@h4nru1 飞书文档写得挺详细的，明天试一下，不懂就在群里问

1 2 3

❮

❯

高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

直接上菜：GenericAgent

一、你的钱包顶得住吗？

二、更好用的智能体一定能自进化

三、好的智能体离不开记忆

彩蛋

写在最后