V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Zhipuai
V2EX  ›  程序员

GLM-5 开源:从代码到工程, Agentic Engineering 时代最好的开源模型

  •  
  •   Zhipuai ·
    PRO
    · 14 小时 37 分钟前 · 2025 次点击

    今天,我们上线并开源 GLM-5 。

    学界与业界正逐渐形成一种共识,大模型从写代码、写前端,进化到写工程、完成大任务,即从“Vibe Coding”变革为“Agentic Engineering”。

    GLM-5 正是这一变革的产物:在 Coding 与 Agent 能力上,取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5 ,擅长复杂系统工程与长程 Agent 任务。

    在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一。

    更大基座,更强智能

    GLM-5 全新基座为从“写代码”到“写工程”的能力演进提供了坚实基础:

    • 参数规模扩展:从 355B (激活 32B )扩展至 744B (激活 40B ),预训练数据从 23T 提升至 28.5T ,更大规模的预训练算力显著提升了模型的通用智能水平。
    • 异步强化学习:构建全新的“Slime”框架,支持更大模型规模及更复杂的强化学习任务,提升强化学习后训练流程效率;提出异步智能体强化学习算法,使模型能够持续从长程交互中学习,充分激发预训练模型的潜力。
    • 稀疏注意力机制:首次集成 DeepSeek Sparse Attention ,在维持长文本效果无损的同时,大幅降低模型部署成本,提升 Token Efficiency 。

    Coding 能力:对齐 Claude Opus 4.5

    GLM-5 在编程能力上实现了对 Claude Opus 4.5 的对齐,在业内公认的主流基准测试中取得开源模型 SOTA 分数。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.856.2 的开源模型 SOTA 分数,性能超过 Gemini 3 Pro 。

    2026 年,大模型需要从“会写”走到“会完成”,尤其是端到端完成大型任务。GLM-5 是一个“系统架构师”,它不仅为开发精美的 Demo 而生,更为稳定交付生产结果而生。

    在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越 GLM-4.7 (平均增幅超过 20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近 Opus 4.5 。

    Agent 能力:SOTA 级长程任务执行

    GLM-5 在 Agent 能力上实现开源 SOTA ,在多个评测基准中取得开源第一:在 BrowseComp (联网检索与信息理解)、MCP-Atlas (工具调用和多步骤任务执行)和 τ²-Bench (复杂多工具场景下的规划和执行)均取得最佳表现。

    在衡量模型经营能力的 Vending Bench 2 中,GLM-5 获得开源模型第一的表现。Vending Bench 2 要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5 ,展现了出色的长期规划和资源管理能力。

    这些能力是 Agentic Engineering 的核心:模型不仅要能写代码、完成工程,还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系,成为真正的 Agentic Ready 基座模型。

    国产芯片支持线上推理集群

    GLM 系列模型受到全球开发者喜爱,在 GLM Coding Plan 全球爆量后,我们不得不启动限售活动。本次 GLM-5 的上线依托众多国产芯片有力保障了线上服务的稳定和高效。

    目前,GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。

    Agentic Engineering 典型场景

    点击或在浏览器输入:showcase.z.ai,即可查看所有案例。

    开源与使用方式

    即日起,GLM-5 在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License 。

    GLM-5 已经纳入 Max 用户套餐,Pro 将尽快在 5 天内支持,接下来我们将逐步扩大范围,尽力让更多用户体验并使用 GLM-5 。GLM Coding Plan 支持 Claude Code 、OpenCode 等主流开发工具。

    GLM Coding Plan 同步升级 Agentic Engineering 体验:

    • 官方适配 OpenClaw:仅需简单几步即可完成配置,快速开启 Agent 工作流;
    • Pro / Max 用户限量赠送 AutoGLM-OpenClaw:支持将云端个人 AI 助手接入飞书,实现办公场景的长任务执行;
    • 新增 GLM in Excel 权益:原生适配 Excel 环境的 AI 插件,支持在侧边栏以自然语言交互,深度赋能数据处理与表格工作流( Beta 期仅 Max 用户可享套餐抵扣)。

    1. 官方 API 接入

    2. 在线体验

    3. 开源链接

    4. Agent

    5. Blog

    29 条回复    2026-02-13 05:55:56 +08:00
    shakaraka
        1
    shakaraka  
    PRO
       14 小时 35 分钟前
    试用套餐有不
    shakaraka
        2
    shakaraka  
    PRO
       14 小时 34 分钟前
    code plan 的试用 GLM-5 的
    Tink
        3
    Tink  
    PRO
       14 小时 21 分钟前 via Android
    lite 和 pro 都不支持
    donggua997
        4
    donggua997  
       14 小时 17 分钟前   ❤️ 12
    比参数没输过,实际体验没赢过。
    enano
        5
    enano  
       14 小时 15 分钟前
    开了 lite 像路边一条
    whbbxw
        6
    whbbxw  
       14 小时 13 分钟前
    你们自己用自己的模型吗? 4.6 和 5.3 也参与一下测试吧。
    donggua997
        7
    donggua997  
       14 小时 10 分钟前
    你真的确定配与 gpt 、gemini 、claude 放一起比吗 ???
    mashimaroinfo1
        8
    mashimaroinfo1  
       14 小时 9 分钟前
    篇幅好长, 能力几何?
    opeth
        9
    opeth  
       14 小时 3 分钟前
    先看看隔壁帖子对你们 coding plan 的背刺的吐槽吧
    hugodotlau
        10
    hugodotlau  
       14 小时 2 分钟前
    来吹半天都没点福利抽奖么?这广告真白看了
    zhuangpipi
        11
    zhuangpipi  
       13 小时 36 分钟前
    不涨价还想购入,涨价确实性价比比较低了
    qaq13037
        12
    qaq13037  
       13 小时 17 分钟前
    跑分嘎嘎猛,实际用起来差很多
    iorilu
        13
    iorilu  
       13 小时 6 分钟前
    我一直奇怪, 100 多可以上车正规的 google one 会员, 用 antigravity 不比这个强, 更别说谷歌还有很多其他 ai 服务?
    flowerwow0316
        14
    flowerwow0316  
       13 小时 5 分钟前 via Android
    你说是就是了
    Muninn
        15
    Muninn  
       12 小时 59 分钟前
    现在这个价格完全没有竞争力了。更何况口碑已经完全坏了,超卖,水军营销,限速,降智,随意修改订阅协议,毫无诚信,吃相难看。
    ProphetN
        16
    ProphetN  
       12 小时 43 分钟前
    吃相太难看了,国产模型商永久拉黑这家吧。
    iden
        17
    iden  
       12 小时 39 分钟前
    ...评论哪儿来的那么大偏见。刷分不都是闭源模型常见的操作吗?
    众所周知开源模型刷分风险更低,也能被吐槽高分低能?
    tlerbao
        18
    tlerbao  
       12 小时 34 分钟前
    吹你家死牛逼
    Plutooo
        19
    Plutooo  
       11 小时 20 分钟前
    是蒸馏模型吗
    felixcode
        20
    felixcode  
       11 小时 9 分钟前
    用起来怎么样,能不能和 gpt 和 opus 比,自己心里没数吗?
    phrack
        21
    phrack  
       11 小时 2 分钟前
    虽然不咋样收费还贵

    但是开源我就喜欢,等显存便宜了 1TB 我也买得起的时候本地试试
    mogutouer
        22
    mogutouer  
       10 小时 26 分钟前
    4.5 都废了,你怎么不对比同时代的 opus 4.6 ?
    Dream4U
        23
    Dream4U  
       10 小时 19 分钟前
    蒸馏对齐
    jqknono
        24
    jqknono  
       9 小时 49 分钟前
    从 300B 涨到 700B, 涨价还算合理吧, 重要的是模型效果.
    unifly
        25
    unifly  
       8 小时 12 分钟前   ❤️ 2
    咋一个个都这么大戾气,不会是跟贴机器人吧,凡是跟老美有竞争的,网上舆论没有不被骂的……嘿嘿
    felixcode
        26
    felixcode  
       5 小时 30 分钟前
    @bridgemindai
    BridgeMind 发的测评和榜单,就这还在这腆着脸吹?


    kneo
        27
    kneo  
       4 小时 24 分钟前 via Android
    多个选择总是好的,没必要喷这么狠吧。我在 hackernews 上经常看老外盛赞中国开源模型,说现想跑本地大模型只能靠中国的开源模型。虽然比不上闭源模型,但只要和自己比是在进步,对他们来说就是个好消息。
    longxk
        28
    longxk  
       3 小时 31 分钟前 via Android
    LITE 套餐我明明记得之前写着支持最新模型,结果现在偷偷改成支持历史模型,这种毫无诚信可言的公司的产品也必然是注水严重。
    jokcylou
        29
    jokcylou  
       51 分钟前 via Android
    @kneo v 站站不起来的人可太多了,不会念国产一点点好的,国产往死里挑刺国外往死里舔,老传统了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   887 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 22:47 · PVG 06:47 · LAX 14:47 · JFK 17:47
    ♥ Do have faith in what you're doing.