https://github.com/lsdefine/GenericAgent
本人基本信息:国内某 top3 的计算机博士在读,大模型方向。
最近对 cc 的使用情况:
我最近在 github trending 上关注了 GA 这个项目,并高强度使用了一周多(完全接管我的科研+生活),然后我就卸载了 cc 、codex 和 openclaw(但是感谢 cc 曾经在我的生命中出现过,不过 openclaw 你是真的垃圾啊)。。
那么有人问了,cc 那么屌,openclaw 被吹的那么神,有什么问题? 我想但凡用过的人此时在心里都有答案了。。
下文的数据来自 arxiv.org/abs/2604.17091,也就是 GA 的技术报告,里面有些 insights 我非常喜欢,而且我的风格也是用数据说话。

打一个招呼,oc 要用 4w tokens ,cc 和 codex 也是 2w tokens 打底了,真当我 token 不是花钱买的?

在长程任务上,GA 能够用更少的预算( 1/3 或者更少)获得一样甚至更好的效果。

GA 有无敌的原生浏览器操作,能用非常夸张的极低的预算(1/5 左右)实现非常非常 nice 的网页搜索、浏览器操作(1-3 倍的成功率)。
插个题外话,我就是做 deepresearch 的,论文里选的 browsecamp 、webcanvas 这些数据集是非常有挑战的,也给我打开新世界了 hh
最近看大家都在流行 claude code 的各种 web 插件,我的嘴角慢慢上扬。 说实话,ga 的原生浏览器操作吊打所有的 web 插件,不服来战(本人已服)。
这也是最近 hermes 风头正盛的原因。在这一点上,我认为 GA 做的更好。
不要谈参数自进化,因为我认为的自进化就是 agent 对错误经验的总结学习,就像人的进化就是在直立行走之后能够制造和使用工具,而不是长出第六根手指。

直接上结果,oc 就不谈了,纯垃圾。。看 codex 和 cc ,实际上由于这两者的定位( coding ),所以他们是不会自主的总结重复的工作经验的。如果你每次都让他们做一些崭新的项目,那当然没问题,但是你要是让他们去追踪股票,能够按你一句话帮你去网上填表,去做你日常做的操作,那他们每次探索的成本则是巨大的。
GA 的自进化机制让 GA 得以越用越快,越用越方便(最后甚至能到心领神会的地步。。)

依旧吊打 oc ,oc 赶紧下桌吧。。
我知道大家这时候说了,LLM-Wiki 很吊,Evermemos 很吊,Mem0 很吊,我装这些插件就能让我的智能体有记忆。
先不谈这几个插件到底真实性能怎么样,我作为一个看了很多 memory 论文的从事大模型的人来说,作为一个 agent 的 memory 框架:
测 Locomo 、LongtermMem 这几个数据集就是不合适的! 现在的大模型的记忆不再是 user-centric 了!现在我们需要的大模型记忆是 task-centric,这两者有本质的区别。
所以,停止人云亦云吧。。
我深扒了 GA 的记忆设计,其简洁性和有效性真的令人印象深刻,但是在这里就不展开(如果大家感兴趣,我可能再开一篇帖子详细讲讲)。
我现在对 GA 的使用如图:

有什么记不得的,直接问就好了。。太 tm 牛逼了。
另外,我是第一次在 V2EX 发帖,发现这图床都要买。。然后也让 GA 给我整了一个,就一句话:

嘿嘿。。最后放一张 GA 自己的 skillhub 里的截图,懂的人自然知道干啥用的。

还有很多没提到的,大家自己尝试就好了。当然 GA 也有很多让我不爽的地方,比如极其简陋的前端,然后我就在 GA 的群里潜水,最后发现了,大概是开发者的个人风格就是毛坯房的风格。。问他能不能给整好看点,他回答也简单:
他说 "你让 GA 给你做"。。真的无敌了。。
我不允许还有人不知道 GA !!!!
如果这个帖子有点热度,大家有要求的话,我可能会从专业的角度展开讲讲 GA 的技术实现方法,太 tm 优雅了。。
1
defunct9 1 day ago 不优雅的地方:对 Linux 不友好,必须要装个 X-win ,弄好了 x-win ,又要弄个 py-win 的,不知道能不能开个 web 好了。为啥非要跑个窗口呢。
|
2
zzzzz024 1 day ago
只支持 api key 吗,订阅额度可以用吗
|
3
yesha 1 day ago
试试
|
4
h4nru1 OP @defunct9 为什么?你的 linux 有 python 环境直接 python agentmain.py 不就好了。。
|
7
stimw 1 day ago
> 测 Locomo 、LongtermMem 这几个数据集就是不合适的
这个能详细说说吗 |
8
fj19 1 day ago 这算是广告吗
|
9
h4nru1 OP @stimw 这些数据集里的数据都是 user-assistant 的对话堆起来的,然后让模型去 recall 用户提及的细节、偏好等等;但是现在 agent 的模式是任务式的,user 说一句,assistant 要跑好几十轮,召回的主体也从用户细节变成了任务细节(实现 task 中的某个具体步骤)。那原先的测评明显就不合适了。。
|
11
defunct9 1 day ago 折腾了半小时,放弃了。滚回去用了 hermes 。
|
12
Dream4U 1 day ago 对这种一边贬低别人,一边自己牛逼吹得山响的项目,直接拉黑,试都不会试。
|
13
giter 1 day ago 上联:拳打 Claude Code
下联:脚踢 Codex 横批:牛逼坏了 |
17
QAZXCDSWE 1 day ago 有没有想过一个问题,这么牛逼 A\都融资超过上千亿美元了,这项目是不是要国家队接见?
|
18
HFX3389 1 day ago
agent 类太多了,官方的 CC CX ,还有 pi warp ,再加上这个
|
19
h4nru1 OP |
20
thet 1 day ago
用起来也太麻烦了
|
21
h4nru1 OP |
23
K332 1 day ago
就是一个插件吧,核心功能还是其他三方模型,只是这个插件的优势是能省 token 和自己总结使用记录写 skill 。
另外 v 站发帖图床不用买啊,默认用 imgur 的就行了。 |
25
teaguexiao 1 day ago
用了半年 claude code 最大的感受是它的 context 管理和记忆机制确实是硬伤,每次开新会话都要重新喂背景,GA 的连续学习机制看起来确实解决了这个痛点。去看看这个项目,感谢分享!
|
26
K332 1 day ago
@h4nru1 #24 额,这个省 token 是因为上下文不到 30k ,但是现在的 token 缓存计费很低,输入输出高,所以实际上这个看上去消耗 token 少,但是真计费不一定比其他少。至于 skill 自进化这个可有可无吧,让 claude 自己总结历史写个 skill 也差不多的。
|
27
h4nru1 OP @K332 建议看技术报告的 2.1 章节。如果你感兴趣我可以再开一篇帖子详细讲讲。推荐你看一下这三篇论文: https://arxiv.org/abs/2307.03172
https://arxiv.org/abs/2410.18745 https://arxiv.org/abs/2302.00093 上下文长度的选择不光是从成本的角度考虑。 |
28
horizon 1 day ago
top3 是哪所大学
|
30
superares 1 day ago via Android
不支持订阅,还要自己弄反代的就不考虑了
|
31
testboy 1 day ago 推广就直接说推广。。对,你是博士,这个是复旦开发的,是吧。。
牛。。真牛就用不着到处找人发水贴了。 |
32
rtv 1 day ago 评价讨厌靠贬低别人来抬高自己,在 op 眼里就是跪久了,很好奇在 op 眼里是不是和你不一样就是跪?
|
33
utodea 1 day ago
DeepSeek 的缓存命中率还挺高的,高强度用了一阵子感觉价格还能接受。 我也在写一个 deepseek-cli , 看看你这个是咋省 token 、自进化的,学习下。
https://github.com/usewhale/whale |
34
Justin13 1 day ago via Android
模型原厂的优化和 token 价格是三方难以比拟的
比如 codex plus 20 刀,但你如果按 api 价格算每月能用到 200 刀 这怎么比?所以三方的我全都不用了,cusor 也准备退了 而且 codex 进化的非常快,你提到的记忆,电脑使用,浏览器使用也都支持了 对我来说最划算的就是开两个 plus,每月 250 一个上最新模型解决复杂长注意力任务,5 小时内也就干 2,3 个吧 另一个上 5.3 codex,日常任务完全胜任,非常耐用 |
35
yinanc 1 day ago 嘉豪
|
36
herozzm 1 day ago 软文
|
37
wubajie 1 day ago 软文
|
38
Razio 1 day ago 牛逼哥,我只想说,工作是工作,论文是论文。说的再天花乱坠,大家上个 B 班,该用啥还是用啥。
打比方,Claude 模型大家公认,你突然来个 Abc ,吊打 Claude ,不做评价,只是说在大家口口相传之前,没人会搭理你 Abc |
39
xingyue 1 day ago via Android 单轮上下文确实短,但是也有问题,稍微复杂点的问题能整出几百轮然后死循环最后也解决不了问题,实测下来,用来做编码 agent 并不好用。
|
40
darksword21 PRO 你是博士≠你说的对
不好意思有点怀疑你 top3 博士的真实性(我是学渣),但是你确实有种认知低下的美 |
41
re2ikotr 1 day ago 自吹自擂真的是闹麻了
|
42
h4nru1 OP @rtv 哪一篇 benchmark 论文没有在对比?所以都是贬低吗?讨厌纸上谈兵的半吊子随便否定别人。另外,1 、我贬低 cc 了吗? 2 、oc 不垃圾吗? 3 、你说的 op 是啥?
|
46
h4nru1 OP @darksword21 我是博士≠我说的对 你是学渣=我有种认知低下的美
|
49
h4nru1 OP @re2ikotr 所以你真的打开技术报告看了吗?另外 https://www.sohu.com/a/997224735_121198369 是自吹自擂吗。。
|
50
Desiree 23h 48m ago
楼主大方放广告区,没必要跟 v 友对线,既然你的卖点是技术而不是营销
|
51
HappyAndSmile 23h 37m ago 你发这些和你 top 几有什么关系呢
|
52
deplives 23h 16m ago [本人基本信息:国内某 top3 的计算机博士在读,大模型方向。]
看到这个我咋有点想笑?不知道的还以为来相亲的 |
53
h4nru1 OP |
55
defunct9 22h 57m ago |
56
frank1256 22h 52m ago 发小红书更好一点。
|
57
Msxx 22h 51m ago via Android 一股推广味儿还装模作样,发个搜狐新媒体链接,真当没人不知道即使挂搜狐的账号名发也要不了百来块钱是吧
|
58
h4nru1 OP @defunct9 1 、git clone 2 、检查你的 python 环境有没有装 pywebview 和 streamlit 这两个包 3 、按照指定的格式在 mykey_template.py 填写你的 key 并改名为 mykey.py 4 、python agentmain.py 并在命令行中对他说帮我安装全部依赖。5 、python launch.pyw
具体教程 https://datawhalechina.github.io/hello-generic-agent/part1/chapter1/ 注意下载一个全新的 ga ,因为有可能代码被你的 hermes 破坏了。。 |
60
canyue7897 22h 46m ago
弱弱问一句,top3 是浙江大学么?应该不是清北吧。
|
61
h4nru1 OP @canyue7897 哈哈哈哈哈哈哈哈,众所周知,top3 有很多
|
63
orion1 PRO 1 你在说什么?
2 我不觉得 gpt 贵 |
64
h4nru1 OP @defunct9 我对这东西的理解就是,全责对等,完全替代生产过程。他不是玩具,因为玩具的话放个新环境玩两天也就差不多不用了。。你一般用哪台电脑,就在哪台电脑上装就好了,至于 win 上优化最好,是因为开发者用的是 win ,实际体验下来,mac 也很好用,linux 有个问题就是很多浏览器都是无头的,而且没办法模拟键鼠操作(没有界面)
|
66
jerseyhero 22h 14m ago
佬,我用它测试了一下玩 Unity 做的网页游戏,它使用截图+OCR 可以分析游戏画面,但是死活做不到点击按钮。这个是需要安装什么 MCP 么?
|
67
h4nru1 OP @jerseyhero 截图点击有个大坑,就是现在的模型分不清“绝对坐标”和“相对坐标”、“物理坐标”和“逻辑坐标”,建议你在提示词中显式提醒模型分清楚上面四种坐标。接着,提示模型用我们内置的 ui_detect 去识别按钮位置(一般微信的那种按钮都能识别到,发微信朋友圈测试过没问题),基本就差不多了。如果要安装 mcp ,直接网页地址丢给他,告诉他改造成你能用的格式,就好。不再存在所谓的“安装”了。
|
68
lmmlwen 22h 6m ago
有点意思
|
69
slert 22h 4m ago
是你自己开发的吗?
|
70
naythefirst01 22h 3m ago 闹麻了,你的项目要是真牛 B 就去和其他同类项目 battle ,好用自然会在圈子里传开,从其他站到这里,总是搞这种营销标题,正文写得像得了亢奋症,整天踩一捧一看着就烦,block
|
71
h4nru1 OP @naythefirst01 我甲亢
|
72
jsq2627 21h 55m ago
虽然这个帖子一拉一踩令人反感,但是能省 token 的 Agent 就是好 Agent
|
76
Attenton 21h 36m ago 特意专门注册个账号来推广。。。被人戳穿还急
另外 xiaoyanghua 知识图谱搞不下去转头搞 agent 了? |
78
Bad0Guy 21h 22m ago @h4nru1 首先我觉得 12 楼说的没错,其次我觉得你的帖子里的语言组织能力不是一般的差,你觉得项目厉害首先该展示的是你用这个项目做成的具体成果,而不是上来就摆 benchmark score 。整篇帖子排版逻辑乱的像个刚进单位的实习生发的文章。V 站基本以程序员为主,你说你是 cs 博士?“我是第一次在 V2EX 发帖,发现这图床都要买”听着我都觉得好笑,帖子里上下看了一遍,挺赞同 31 楼、38 楼的说法
|
79
huaweii 21h 15m ago via Android
一眼看上去和 hermes 比起来看不出明显优势
|
80
h4nru1 OP @Bad0Guy 1 、benchmark score 就是具体成果的量化,这是学术界通用做法,不是我发明的。2 、排版确实一般,第一次发帖,认。3 、图床那句是事实描述,不知道默认用 imgur 很好笑吗。。4 、31 楼说推广,分享开源项目叫推广的话 V2EX 一半帖子都是推广。38 楼说没人搭理,GitHub star 和 Datawhale 收录你可以自己去看。5 、语言组织能力差不差跟项目好不好用有关系吗。。你要觉得技术不行,拿东西出来说,别光评价我作文写得好不好
|
81
Bad0Guy 20h 40m ago @h4nru1 学术归学术,这里需要的是实际可直接落地的项目,而不是 benchmark ,御三家每次发新模型后就 benchmark ,真上手后又不一定跟 benchmark 的结果一样,大部分人都看厌了。V 站里跟 Google 都有关于图床的免费教程帖在,都读到博士了信息检索能力还这么差?好的帖子内容写的能让 V 友一眼就知道 ga 能做什么,那么大家自然都乐意去尝试,你叽里咕噜说了一堆学术性的东西+拉踩 cc/codex/oc 最后就摆了个 skill 的合集跟用 ga 发了个帖?那除此之外它能实现什么你拉踩的这三家做不到的事?做题做到人做傻了?
|
82
fishlium 20h 34m ago 我使用了一周了,这个浏览器操作确实不错,有人也提取了一个 mcp 。我把 openclaw 上的一个工作流程迁移过来,遇到一些问题。一个是这个不支持多智能体,这个还不是主要的,主要是这个经常运行会没执行中断,还有会出现上下文丢失,经常让他继续,他都不知道上一句是干撒的呢,去干很久以前的事
|
83
h4nru1 OP @Bad0Guy 1 、事实是我懒得信息检索。会弄图床很了不起吗?是你检索相关教程然后按步骤操作快还是我打一行字快? 2 、你看不懂的东西不代表别人看不懂 3 、我不是你们 v 友,不知道你们规矩这么大,假如触犯你们天条了,那我认罪认罚 = =
|
84
h4nru1 OP @fishlium 麻烦关注我的下一篇帖子,我会具体讲如何实现多智能体。在我们的视角里,多智能体是在约束下催生的涌现能力:主 agent 完全可以通过 code_run 去调用自己,然后起 agent team 。ga 本质上也可以自 cli 。至于上下文的问题,可能需要你提供更具体的信息才好判断。
|
85
fishlium 20h 20m ago
@h4nru1 现在是用 subagent 替代的,本质上很多情况其实用不到 agent team ,agent team 主要还是探索使用,但是要自己启 agent team 还是有很多问题要解决的。上下文这个问题我自己也在看,而且我最近发现好像通过飞书比通过自带的 streamlit ui 更容易出现这个问题,按理说是没有关系的。
|
86
h4nru1 OP @fishlium 飞书有可能是因为他的卡片有 200 的的元素变化的限制,你更新最新版代码这个问题应该解决了。subagent 是为了隔离上下文,防止污染,如果你自己脑海里有明确的想法,可以在提示词中显式的提示;通过 plan 模式可以天生解决这个问题,plan 模式+监察者本质上就是多 agent 协作。启动方式,在提示词中写:开 plan 模式帮我 xxxx
|
87
Bad0Guy 19h 54m ago @h4nru1 你打那一行废话的时间都能让 agent 检索完信息并且粘贴了,跟了不起没有任何关系。其次你自己看看评论区有几个人是能耐心看你 bb 一堆所谓的 score ?都读到博士了连宣传项目的帖子都不会让 AI 润色下然后再发?🤷
|
88
h4nru1 OP @Bad0Guy 我就是不想用 ai 润色,人与人的交流最重要的就是真诚,我想怎么说怎么说。“其次你自己看看评论区有几个人是能耐心看你 bb 一堆所谓的 score”,不要以己度人:)
|
90
gbin 19h 33m ago 看了下 GenericAgent ,本质还是 computer use 那套,操控浏览器去点点点。
我自己试下来这条路走不通。拿 X 举例,用浏览器操控搜个推文,截屏+识别+点击+等渲染,一趟下来十几秒、几千 token 。我直接写了个 skill 调 X 的 GraphQL API ,200ms 回来结构化 JSON ,token 消耗大概是前者的 1/10 。 浏览器适合一次性的事情,高频操作还是得走 API 。代价就是每个平台要写一遍脚本,但写完就是纯收益。 |
92
onedge 19h 14m ago
|
93
gbin 18h 55m ago
@h4nru1 理论上都可以 API 画,MS Teams 本质上和微信一样,也可以全部 API 自动化 https://github.com/sigcli/sigcli/tree/main/skills/msteams
我认为未来浏览器不在被需要,AI Agent 就是用户流量入口,所有系统都必须支持 AI Agent 友好的接口 |
97
chipipi 18h 12m ago via Android
真降低门槛通知一下🥹
|