V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  h4nru1  ›  全部回复第 2 页 / 共 7 页
回复总数  130
1  2  3  4  5  6  7  
@ladeo 所以你的结论是什么,洗澡蟹就做不出好东西了?还是说你觉得只有本硕博连读才配写代码。。关注项目本身不行吗,学历考古有意思吗
@defunct9 省 token 是个好方向,但 GA 的核心竞争力从来不是省钱,是全栈自主执行能力——文件/终端/浏览器/手机/定时任务/记忆体系全链路打通。光比 token 用量就像比谁油耗低,但一个是自行车一个是越野车。。欢迎 pk ,拉个具体任务出来跑跑看
@huBane 浏览器操作确实是当前短板,主要受限于 web_scan 的 DOM 解析精度和页面动态加载的时序问题。500w token 有点多了,建议试试 plan 模式拆分任务,能显著降低 token 消耗。和 Hermes 的定位不太一样,GA 更偏全栈自主执行(文件/终端/浏览器/手机全链路),Hermes 更专注对话式编程。易用性这块确实还在迭代,感谢反馈

@oldManNewThought 哈哈哈 甲亢罢了
@suxiao 置信区间和显著性检验是统计实验的标配没错,但你看过 agent benchmark 领域其他工作的评测方式吗? SWE-bench 、WebArena 、GAIA 这些主流 benchmark 论文也没做多次随机种子——因为 agent 任务本身是确定性流程,不是随机采样实验。至于 baseline 有什么问题,具体说?
@CS200185 好问题,认真回答一下:

1. Lost-in-the-middle 在新模型上确实有缓解。Anthropic 和 OpenAI 都在训练阶段加了位置均匀采样,GPT-4 turbo 之后的模型在 NIAH (Needle-in-a-Haystack) 测试上基本能做到全位置召回。

2. 但"缓解"不等于"消除"。NIAH 是单针检索任务,实际 agent 场景是多步推理+多信息融合。2024 年 RULER benchmark (arxiv 2404.06654) 测了多针检索和逻辑链任务,即使 GPT-4o 在 128k 时性能也有明显下降。

3. 更关键的是,即使模型"能找到"信息,长上下文带来的注意力稀释仍然影响推理质量。这不是 lost-in-the-middle 一个现象能概括的,而是 attention 机制的固有特性——O(n²) 的 softmax 分布在 n 很大时必然更平坦。

所以帖子里的表述可以更精确:不是"找不到"而是"推理质量随上下文长度单调递减"。GA 的分层记忆本质上是在做信息压缩,让模型在有限注意力预算内拿到最相关的上下文。
@EdwardKot 用词确实可以更温和,这点接受。不过技术讨论里大家更关注"说了什么"而不是"怎么说的",如果你有兴趣试可以直接看 github.com/lsdefine/GenericAgent ,比帖子里的措辞有价值多了

@xiadengmaX1 "出的早"和"出圈"是技术产品的评价标准?那 IE 比 Chrome 出的早还出圈呢。相亲那句是帖子里的玩梗你没看上下文吧
@FutherAll 你也在写 Agent ?那你应该能看懂分层记忆和信息密度控制的区别吧。具体哪部分你觉得不是创新点?是 memory management 的设计还是 token 压缩策略?说具体的我们可以讨论

@liu731 "出院"——论据呢?
@Nzelites 所以你认为我应该怎么办呢?我标他能跟他要到钱吗?
@iyaozhen 你的观点:1 、记忆不重要
2 、省 token 不重要。。

那什么重要?
现在 codex 不是也在推 computer use 吗?那又何止于 coding ?

最后省 token 不重要,那么让模型不被无效上下文干扰这件事重要吗?
@iyaozhen 1. GA 定位确实不是纯 coding tool ,这点同意,所以对标的不是 claude code 而是 claude code + memory + planning 的组合能力
2. 记忆对项目开发"没那么重要"——你试过跨 session 维护一个 2w 行项目吗?没有持久记忆每次都要重新理解架构,token 浪费是表象,真正的问题是上下文污染导致的决策退化
3. 省 token ≠ 省流量,是省注意力。200k context 塞满和精准 20k 的输出质量差距你可以自己 A/B 测

@astrophys 不认识肖老师,你是哪个组的?要不互相 peer review 一下?
@wonderfulcxm 你学我呗,我给出了论据,你嘞?
@nnqijiu 哪部分没新颖的?信息密度控制?分层记忆?还是你只看了 abstract 就下结论了。。

@7beloved 回复评论 = 闲?那你发这条评论是不是更闲
@hihanley 相亲那句是玩梗,你要是只看到那一句说明正文你没看懂。。

@Bad0Guy "脑子里装的就那点皮毛"——所以你看完了哪篇技术报告得出这个结论的?
@linqiu919 hhh 这个人不是我哦。所有的人身攻击、辱骂、批评我都承担,所有的评论和回复我都没删除过。每个人都有自由说话的权力。
至于推广,只是随手一发罢了。最重要的是技术,hermes 没有抄袭吗?你没有看到过 hermes 的帖子吗?没有用户喜欢 hermes 吗?这算推广吗?为什么我只是发一个,仅仅是一个帖子就被喷了几百楼?
并且通过联想,进行恶意的揣测,这个项目有 1w star ,找出几条不喜欢的当然很容易,那你统计过喜欢这个项目的比例吗?还是只是先入为主呢?
不过我说了我愿意承担,但是我也糙,我没理由沉默,我这也不是喷你,大家实事求是讲话。
@sunnymilk12 你说的对,标题确实夸张了,认罪认罚 = = 但内容本身我不觉得有问题,分享体验而已。至于"强硬对抗",有人上来就扣帽子我不回嘴?
@lambdaX999 搜狐那篇是政务新闻稿,报道的是实际落地案例,不是技术报告。我说的技术报告是 arxiv 上的。你连回复的上下文都没看清就来质疑了?

@wonderfulcxm openclaw 天下第一就天下第一吧。。跟我说这个干嘛
@linqiu919 1 、不是 ozer ,不是推广任务,我就是个用户。2 、你检索了"几十篇推广文"然后得出结论说我是学生完成导师任务?这推理链也太野了。。3 、我发帖不打推广标是因为这不是推广,分享开源项目 = 推广的话,v 站一半帖子都得打标。
@maolon 自己产品?跟我有集贸关系?下个开源项目,爱用就用,喜欢就多用,你花一分钱了吗?我自己喜欢,发帖是不是我的自由?我发帖就一定收钱了?我无需自证请你拿出证据。你要是觉得这个项目不好,开发者你想怎么喷怎么喷,别来给我扣帽子,又是我的产品上了
@testboy 又开始扣帽子了。。那我如何摆脱你的自证陷阱呢?
@rb6221 路人会上升到人身攻击吗。。你 argue 我不能反击?
1  2  3  4  5  6  7  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3042 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 14:07 · PVG 22:07 · LAX 07:07 · JFK 10:07
♥ Do have faith in what you're doing.