V2EX › h4nru1 的所有回复 › 第 2 页 / 共 7 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2 3 4 5 6 7

❮

❯

5 小时 57 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@ladeo 所以你的结论是什么，洗澡蟹就做不出好东西了？还是说你觉得只有本硕博连读才配写代码。。关注项目本身不行吗，学历考古有意思吗

6 小时 9 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@defunct9 省 token 是个好方向，但 GA 的核心竞争力从来不是省钱，是全栈自主执行能力——文件/终端/浏览器/手机/定时任务/记忆体系全链路打通。光比 token 用量就像比谁油耗低，但一个是自行车一个是越野车。。欢迎 pk ，拉个具体任务出来跑跑看

6 小时 19 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@huBane 浏览器操作确实是当前短板，主要受限于 web_scan 的 DOM 解析精度和页面动态加载的时序问题。500w token 有点多了，建议试试 plan 模式拆分任务，能显著降低 token 消耗。和 Hermes 的定位不太一样，GA 更偏全栈自主执行（文件/终端/浏览器/手机全链路），Hermes 更专注对话式编程。易用性这块确实还在迭代，感谢反馈

@oldManNewThought 哈哈哈甲亢罢了

7 小时 3 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@suxiao 置信区间和显著性检验是统计实验的标配没错，但你看过 agent benchmark 领域其他工作的评测方式吗？ SWE-bench 、WebArena 、GAIA 这些主流 benchmark 论文也没做多次随机种子——因为 agent 任务本身是确定性流程，不是随机采样实验。至于 baseline 有什么问题，具体说？

7 小时 12 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 教你以「上下文信息密度」为第一性原理构建最强通用 Agent

@CS200185 好问题，认真回答一下：

1. Lost-in-the-middle 在新模型上确实有缓解。Anthropic 和 OpenAI 都在训练阶段加了位置均匀采样，GPT-4 turbo 之后的模型在 NIAH (Needle-in-a-Haystack) 测试上基本能做到全位置召回。

2. 但"缓解"不等于"消除"。NIAH 是单针检索任务，实际 agent 场景是多步推理+多信息融合。2024 年 RULER benchmark (arxiv 2404.06654) 测了多针检索和逻辑链任务，即使 GPT-4o 在 128k 时性能也有明显下降。

3. 更关键的是，即使模型"能找到"信息，长上下文带来的注意力稀释仍然影响推理质量。这不是 lost-in-the-middle 一个现象能概括的，而是 attention 机制的固有特性——O(n²) 的 softmax 分布在 n 很大时必然更平坦。

所以帖子里的表述可以更精确：不是"找不到"而是"推理质量随上下文长度单调递减"。GA 的分层记忆本质上是在做信息压缩，让模型在有限注意力预算内拿到最相关的上下文。

7 小时 13 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@EdwardKot 用词确实可以更温和，这点接受。不过技术讨论里大家更关注"说了什么"而不是"怎么说的"，如果你有兴趣试可以直接看 github.com/lsdefine/GenericAgent ，比帖子里的措辞有价值多了

@xiadengmaX1 "出的早"和"出圈"是技术产品的评价标准？那 IE 比 Chrome 出的早还出圈呢。相亲那句是帖子里的玩梗你没看上下文吧

7 小时 24 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@FutherAll 你也在写 Agent ？那你应该能看懂分层记忆和信息密度控制的区别吧。具体哪部分你觉得不是创新点？是 memory management 的设计还是 token 压缩策略？说具体的我们可以讨论

@liu731 "出院"——论据呢？

7 小时 32 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@Nzelites 所以你认为我应该怎么办呢？我标他能跟他要到钱吗？

7 小时 33 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@iyaozhen 你的观点：1 、记忆不重要
2 、省 token 不重要。。

那什么重要？
现在 codex 不是也在推 computer use 吗？那又何止于 coding ？

最后省 token 不重要，那么让模型不被无效上下文干扰这件事重要吗？

7 小时 33 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@iyaozhen 1. GA 定位确实不是纯 coding tool ，这点同意，所以对标的不是 claude code 而是 claude code + memory + planning 的组合能力
2. 记忆对项目开发"没那么重要"——你试过跨 session 维护一个 2w 行项目吗？没有持久记忆每次都要重新理解架构，token 浪费是表象，真正的问题是上下文污染导致的决策退化
3. 省 token ≠ 省流量，是省注意力。200k context 塞满和精准 20k 的输出质量差距你可以自己 A/B 测

@astrophys 不认识肖老师，你是哪个组的？要不互相 peer review 一下？

7 小时 36 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@wonderfulcxm 你学我呗，我给出了论据，你嘞？

7 小时 43 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@nnqijiu 哪部分没新颖的？信息密度控制？分层记忆？还是你只看了 abstract 就下结论了。。

@7beloved 回复评论 = 闲？那你发这条评论是不是更闲

7 小时 43 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 教你以「上下文信息密度」为第一性原理构建最强通用 Agent

@hihanley 相亲那句是玩梗，你要是只看到那一句说明正文你没看懂。。

@Bad0Guy "脑子里装的就那点皮毛"——所以你看完了哪篇技术报告得出这个结论的？

7 小时 44 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@linqiu919 hhh 这个人不是我哦。所有的人身攻击、辱骂、批评我都承担，所有的评论和回复我都没删除过。每个人都有自由说话的权力。
至于推广，只是随手一发罢了。最重要的是技术，hermes 没有抄袭吗？你没有看到过 hermes 的帖子吗？没有用户喜欢 hermes 吗？这算推广吗？为什么我只是发一个，仅仅是一个帖子就被喷了几百楼？
并且通过联想，进行恶意的揣测，这个项目有 1w star ，找出几条不喜欢的当然很容易，那你统计过喜欢这个项目的比例吗？还是只是先入为主呢？
不过我说了我愿意承担，但是我也糙，我没理由沉默，我这也不是喷你，大家实事求是讲话。

7 小时 54 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@sunnymilk12 你说的对，标题确实夸张了，认罪认罚 = = 但内容本身我不觉得有问题，分享体验而已。至于"强硬对抗"，有人上来就扣帽子我不回嘴？

7 小时 55 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@lambdaX999 搜狐那篇是政务新闻稿，报道的是实际落地案例，不是技术报告。我说的技术报告是 arxiv 上的。你连回复的上下文都没看清就来质疑了？

@wonderfulcxm openclaw 天下第一就天下第一吧。。跟我说这个干嘛

7 小时 55 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@linqiu919 1 、不是 ozer ，不是推广任务，我就是个用户。2 、你检索了"几十篇推广文"然后得出结论说我是学生完成导师任务？这推理链也太野了。。3 、我发帖不打推广标是因为这不是推广，分享开源项目 = 推广的话，v 站一半帖子都得打标。

8 小时 0 分钟前

回复了 h4nru1 创建的主题 › 程序员 › 高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

@maolon 自己产品？跟我有集贸关系？下个开源项目，爱用就用，喜欢就多用，你花一分钱了吗？我自己喜欢，发帖是不是我的自由？我发帖就一定收钱了？我无需自证请你拿出证据。你要是觉得这个项目不好，开发者你想怎么喷怎么喷，别来给我扣帽子，又是我的产品上了