爱意满满的作品展示区。
hashtome

我做了一个让 Codex / Claude Code 操作真实 Chrome 的插件,结果自己先用上了

  •  
  •   hashtome · 3 days ago · 985 views

    最近遇到一个挺反直觉的事情。

    三四个月前,我还没确定日常主力会用 Claude Code 、Codex ,还是其他 AI 编程工具。那时候各家能力都在快速变化,浏览器操作也都不太稳定,所以我想做一个比较通用的“AI 肢体”:不绑定某一个 AI ,只要它能在终端里跑命令 / 发 HTTP ,就可以接管我本机已经登录的 Chrome 。

    这个东西后来叫 AgentLimb 。

    AgentLimb demo

    它的结构很简单:

    • Chrome extension
    • 本地 bridge ,跑在 127.0.0.1:7791
    • AI 终端通过一组工具去读页面、点按钮、输入、等待、截图、记录站点流程
    • 浏览器用的还是你自己的真实 Chrome ,所以登录态、Cookie 、扩展环境都在
    • 做通过的网页流程会沉淀成 muscle,保存到本地 JSON ,后面可以复用

    我一开始做它,并不是为了“替代 Codex 插件”,而是想给 Claude Code 、Codex 、Cursor 这类工具都留一个通用浏览器入口。

    结果最近我自己重度用 Codex 做真实网页工作时,发现一件有点离谱的事:这个自己写的插件,反而比我这边能用到的官方 Chrome 插件更顺手。

    这里不是想拉踩官方方案,只说我自己的环境和工作流。我这边遇到过几个问题:

    • 有些人下载 Codex 的 Chrome 插件并不顺利
    • 我自己装上以后,在 X 这种重页面上遇到过卡顿和 Chrome 无响应
    • 重复操作平台时,每次重新摸索页面很浪费
    • 桌面级截图 / 可访问性树扫描在复杂网页上成本很高

    最后我现在的工作流变成了:

    • 网页语义层:AgentLimb 读 DOM 、找按钮、点 selector 、提取发布后的链接
    • 系统 UI 层:AppleScript / System Events 处理文件选择器、上传下载弹窗和兜底点击
    • 不再把 Codex Chrome Extension 当作常规路径

    真实用下来,比较适合的场景包括:

    • App Store Connect 后台里填写应用信息、确认页面状态
    • 微博、公众号、小红书这类内容平台的发帖、回复、素材发布和运营记录
    • 重复表单、后台录入、营销素材发布
    • 需要真实登录态的网页 QA

    我现在最喜欢的设计其实不是“AI 能点按钮”,而是 muscle 。

    比如第一次去某个站点发帖,AI 需要探索入口、正文框、按钮、发布后链接在哪里。做通过一次以后,这些选择器、流程和注意事项会变成站点级记忆。下次再来,不需要完全从 0 开始。

    这对 Codex / Claude Code 这种工具挺重要的:浏览器任务真正贵的地方,往往不是第一次能不能做完,而是第二次、第三次、第四次还要不要重复学习。

    我也把它开源了,并且已经上架 Chrome Web Store 。现在就是免费给大家用,也希望更多人帮我测一下它在不同 AI 终端、不同 Chrome Profile 、不同网站上的边界。

    GitHub: https://github.com/hooosberg/AgentLimb

    Chrome Web Store: https://chromewebstore.google.com/detail/agentlimb/hldldfepjhljhbcneojddjkkodkjglof

    目前它还很早期,我自己主要在 macOS + Chrome + Codex / Claude Code 的工作流里用。已知有些复杂富文本编辑器、文件上传、系统弹窗还是需要兜底方案,所以它不是一个“万能 RPA”,更像是给 AI 终端接上真实浏览器的一层轻量肢体。

    如果你也在用 Codex / Claude Code / Cursor 做真实网页任务,欢迎试试。也欢迎直接在 GitHub 提 issue ,或者在这个帖子里告诉我:

    你最希望 AI 不要每天重新摸索的网页流程是什么?

    6 replies    2026-05-25 09:23:01 +08:00
    Betterr
        1
    Betterr  
       3 days ago
    帖主晚上好。TLDR ,不过有几个问题。和 Codex 自己的插件有什么差异点?和 Chrome Devtools MCP 有什么差异点?
    Ericcccccccc
        2
    Ericcccccccc  
       3 days ago
    这 codex 有官方的呀...东西做偏了
    hashtome
        3
    hashtome  
    OP
       3 days ago via iPhone
    @Betterr AgentLimb 做的是“让 AI 像人一样理解并操作网页的浏览器行为层”,而 Codex 插件偏“代码开发”,Chrome DevTools MCP 偏“浏览器调试”。
    hashtome
        4
    hashtome  
    OP
       3 days ago via iPhone
    @Ericcccccccc 用了官方的,感觉不理想
    defcc
        5
    defcc  
       2 days ago
    你试试 codex 输入框里输入 @computer ,让他操作你的浏览器完成任务。官方已经做得很完善了
    hashtome
        6
    hashtome  
    OP
       2 days ago
    @defcc 谢谢 我再看看 时候我思路错误
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1342 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 23:52 · PVG 07:52 · LAX 16:52 · JFK 19:52
    ♥ Do have faith in what you're doing.