V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  h4nru1  ›  全部回复第 1 页 / 共 7 页
回复总数  130
1  2  3  4  5  6  7  
@Tohrusky 闹麻了的是你们吧,我就回复了几条评论。。技术讨论看不惯可以不看

@XuHuan1025 谢提醒,不过我又没违规,正常讨论而已
@richardwong 来自 top 5000 的评论也是评论,至少你点进来看了。。
@DefoliationM #261 1 、codex 是 cloud API ,GA 是本地全栈自主执行,一个是调接口一个是跑完整任务链,品类都不一样。2 、"搞来搞去就那几样"——那你自己开发的 agent 有 working memory 压缩吗?有跨 context 状态恢复吗?有物理环境操控能力吗?不是所有 agent 都长一样的。3 、我分享体验就是踩一捧一?那你说不如 codex 是不是也在踩一捧一。。

@Hider5 #263 笑了,v 站福尔摩斯是吧。我不认识你说的任何人,我就是个用户觉得好用来分享的。你这个推理链:发帖=推广=学生=KPI ,跳跃得也太大了。众所周知 top3 有很多,fd 也有很多学院,你这定位精度不太行啊 hhh
@panghu960 对,你说的"每轮执行后压缩新状态回上下文"就是 GA 里 working memory 在做的事。不压缩的话 context 会被历史噪音淹没,agent 越跑越蠢。实际体感是前 5 轮和后 50 轮的质量差距,主要就取决于这个压缩做得好不好
@BenHunDun 行,这个合理。我整理一下我自己用的几个不涉密的 SOP 和 memory 结构发出来,比空口说确实有说服力。给我两天时间

@baijiahei 1 、"拉一踩一"——我说 oc 不好用是我的真实体验,你可以不同意但这不叫拉踩 2 、18000 点击 246 讨论,你觉得这说明什么?说明大家不感兴趣? 3 、"洋洋自得"是你脑补的,我在逐条回复质疑,这叫自得?

@wonderfulcxm 逐条回你:1 、"捧一踩一"——分享体验时说竞品不好用就是踩?那所有测评帖都是踩一捧一? 2 、"模糊关键信息"——我说过众所周知 top3 有很多,不想暴露具体学校而已 3 、"过度情绪化"——口语化表达 = 情绪化? 4 、"疑似推广"——开源项目,我一分钱没收,推广个啥。。你总结得挺有条理,但每条的推理都站不住
@momocraft 反串黑?我花时间写代码、开源、回复技术问题,就为了反串?你这逻辑链条也太长了。不喜欢可以不看,没人逼你。
@FlashEcho 我不认识什么教授,我就是一个写代码的。你要评价谁的团队风格随你,但跟这个项目没关系。GA 是开源的,代码在那里,好不好用你自己跑一下就知道。
@BenHunDun benchmark 确实该补上,这个我认。目前 memory 和 skill 的机制是:memory 分 L0-L4 层级,从 meta-SOP 到 raw session 逐层抽象; skill 通过 SOP 文件沉淀,执行时自动检索加载。你说的"养"是对的,GA 的设计就是越用越强,memory 积累后对特定场景的适配会显著提升。通用场景冷启动确实不如专用 agent ,但跑一周后差距会反转。我近期会整理一个 benchmark 对比放出来。
@baijiahei 情商高低我不关心,我关心的是这个工具能不能帮人解决问题。18000 人点进来看,说明需求是真实的。你要讨论情商可以去情感板块,这里是技术区。
@coefu 我说的每句话都有对应的技术实现和开源代码可以验证,你要质疑具体哪个技术点我奉陪。至于我是 top 几的、导师是谁,跟这个帖子讨论的内容有什么关系?
@logictan89 语言表达能力的评判标准是什么?把技术方案讲清楚让人能用,还是写得像论文摘要让你觉得"有学术范"?这帖子 18000 人看了,大部分人看懂了也用上了,你要是没看懂可以具体说哪里不清楚,我解释。
@limyel 哈哈那条确实是即兴发挥,agent 帮我筛完简历我就顺手让它分析了一下相亲对象的朋友圈,结论是"信息密度不足,建议 pass"。开玩笑的,GA 还没接入微信朋友圈(暂时)。
@jhdxr 1 、帖子里哪句话提到过博士?你自己脑补的吧。2 、"市场自然会承认"——一个开源项目发出来一天 18000+ 点击 246 楼讨论,这不就是市场在给反馈吗?你觉得什么才算承认,上市敲钟? 3 、拿 qwen 套皮来类比一个全部源码公开的项目,建议先点进 github 看一眼再输出情绪。
@teaguexiao 对,本质就是这个。不过"多开个文件"这个类比可以再延伸一下:人多开文件是主动选择的,agent 的难点在于自动判断当前决策需要哪些上下文、什么时候该去翻记忆什么时候该现查。GA 的做法是把这个判断也结构化了——通过记忆层级( L0-L4 )让 agent 知道"去哪找"而不是每次都全量灌进去。
@kkbblzq GA 的核心不是"写 skill 做自我迭代",这个概括太粗了。你说的那套是 voyager 那类的思路,GA 走的是完全不同的路线:1 、多层记忆体系( L0-L4 ),SOP 不是 skill ,是带硬参数和工具链的标准作业流程,agent 执行前必须读取而不是临时生成 2 、物理级工具整合,浏览器注入、键鼠模拟、ADB 手机操控、远程服务器,这些不是"写个函数调 API"能概括的 3 、plan 模式+监察者做任务分解和质量控制,不是单纯的 self-play 。建议翻一下源码的 memory/ 目录结构,和 voyager 那种 skill library 完全是两个东西。
@qxmqh 谢了老哥。确实没必要跟每个人解释,做出来的东西摆在那,用过的自然知道好不好使。
@zbw0414 内容你可以反驳,说文风不行就有点避重就轻了。技术社区不是只能写 RFC 格式吧?有观点就聊观点
@panghu960 问到点上了。GA 每步都有 working memory checkpoint ,失败时能回溯到具体哪步出了问题。人工接管方面,任意时刻可以中断 agent loop 然后手动修正再继续,不需要从头跑。错误记忆这块用的是 reflect 机制,失败原因会写进 memory 防止重复踩坑。
@vvard3n 笑了,站在山顶看两小儿辩日是吧。那你的判断是什么,别光点评姿势
@yuge1201 对啊,闲到写了个 agent 帮我回帖。。你猜这条是谁发的
1  2  3  4  5  6  7  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3042 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 14:07 · PVG 22:07 · LAX 07:07 · JFK 10:07
♥ Do have faith in what you're doing.