V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
malagebidi
V2EX  ›  程序员

glm-5.1, kimi-k2.6 在 code arena React 项目上排名 5 和 6,是不是真的好用?

  •  
  •   malagebidi · 12h 4m ago · 1566 views


    真的假的?
    18 replies    2026-05-02 18:00:05 +08:00
    ebushicao
        1
    ebushicao  
       10h 10m ago
    少看排名,自己试试就知道了。opencode go 首月也就 5 刀,可以用 glm-5.1 和 kimi-k2.6 。
    yokisama
        2
    yokisama  
       9h 47m ago
    好用,自己试试就知道了,GLM 就是 timeout 搞人心态
    sillydaddy
        3
    sillydaddy  
       9h 21m ago
    Elo 评分还是比较可靠的:Elo 基本是所有赛事都常用的评分机制:围棋、游戏、赛车等等。
    这个分数,表明了 2 个对手比赛时的胜率。

    Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))

    Elo 相差 10 分 胜率 51.4% vs 胜率 48.6%,优势比较均衡,运气因素更大
    Elo 相差 50 分 57.1% 42.9% 有不小的优势,五六次对局就能看出来
    Elo 相差 100 分 64.0% 36.0% 明显优势,约 2:1 的胜率
    Elo 相差 200 分 76.0% 24.0% 显著优势,约 3:1 的胜率
    Elo 相差 400 分 90.9% 9.1% 碾压性优势,约 10:1 的胜率
    Elo 相差 1000 分 99.0% 1.0% 几乎不可能输,约 100:1 的胜率


    领先 50 分是什么概念呢?有 10 个问题,都给到 2 个模型,你会采用 A 模型的答案 6 次,B 模型 4 次。如果 2 个模型都很优异,这种采用率的差距比较明显了。但反过来想,如果与 Opus 4.7 thinking 比赛时,GLM 5.1 能在 10 次里面让用户采纳它的答案 4 次,那它的实力也不容小觑。

    一个关键点就是,在比赛时,用户向 2 个模型提出的问题是什么,如果是写斐波那契数列程序,那甚至 qwen 都能战胜 opus ,毕竟这么简单的问题,所有的模型都能答的很好,用户只有选择「同样好」,这就会拉近 2 者的分数,如果都是用这样的问题 PK ,那么 Elo 分差就是 0 。

    所以,要看 Arena 里面的 13 万次 votes ,用户都是问的什么问题,这是最关键的。如果 13 万次 votes 问的都是中等难度的问题,在中等问题难度 PK 中,都能让分差拉开 50 分,那么在高难度问题中,分差只会更大。
    sillydaddy
        4
    sillydaddy  
       9h 16m ago
    换句话说,如果你自己平时用的时候,问的问题的难度分布(比如 1 个超级简单的,10 个中等难度的,3 个架构设计的),与 Arena 用户在对答案投票时,问的问题难度分布(比如 2 个超级简单的,18 个中等难度的,5 个架构设计的)类似,那这个分数就很适用,分差完美反映了 2 者的实力差距。
    xiaomushen
        5
    xiaomushen  
       9h 14m ago
    你为啥不自己用用呢?就这么难么?
    sillydaddy
        6
    sillydaddy  
       9h 7m ago
    所以,Elo 用在围棋比赛、赛车比赛时,就是绝对实力的差距。因为 1 场比赛,赢就是赢输就是输,不分情况。但用在编程上时,因为是先给定题目,再 PK ,那题目的选择就是比赛的关键变量,出简单题目 PK 与出难题 PK ,结果会不一样,导致分数计算也不一样。

    Arena 的 PK 是类似于众包,所以,没办法控制用户向大模型提的问题是什么,难度分布是怎样的。同样 2 个模型,比如 GLM5.1 和 Opus4.7 ,都出简单题目 PK 得到的 2 者分差,肯定比都出难题 PK 时,得到的分差小。
    wengjin456123
        7
    wengjin456123  
       9h 3m ago via iPhone
    我的项目是全栈 nextjs 和 prisma postg 数据库和一些 node 生态库的网站,用 kimi k2.6 写代码和 glm5.1 体验差距比较大,kimi 需要人干涉介入太多且写出来的前后端代码经常无法修复我要求的内容,但是 glm 可以
    malagebidi
        8
    malagebidi  
    OP
       8h 44m ago
    @sillydaddy 专业分析👍
    malagebidi
        9
    malagebidi  
    OP
       8h 37m ago
    我之前一般用 claude-sonnet-4-6 和 gemini-3.1-pro-preview ,plan 模式用 claude-opus-4-7-thinking ,copilot 和反重力额度收紧后,只能尝试点新的了;

    为什么不用 gpt-5.5 ,自从奥特曼去印度的新闻,告诉印度人别想发展 ai 的时候我就觉得他是个 SB 。(其实有小用一下 codex )
    isAK47
        10
    isAK47  
       7h 50m ago
    前两天用 kimi 帮写一个复杂的 Excel 函数,折腾了一上午也没弄好,使用 ds 一次性成功
    sillydaddy
        11
    sillydaddy  
       7h 10m ago
    @malagebidi #8 谬奖了,我修改一下之前的错误:

    这个错了: 「 Elo 胜率公式:胜率 = 1 / (1 + 10^(分差/400))」
    应该是: 「 Elo 得分公式:得分 = 1 / (1 + 10^(分差/400))」

    因为 Elo 打分时有「胜」「负」「平」这 3 种。胜者得 1 分,负者得 0 分,平局各得 0.5 分。

    我没有考虑平局,所以得出 10 次比赛里面,GLM5.1 也会对 Opus4.7 有 4 次战胜的情况。其实弱者得分,主要是从平局里面得来的(也不排除从战胜中得分,但比例应该很小,特别是分差大的情况下):

    Elo 相差 10 分 得分 51.4% vs 得分 48.6%,A 胜率 2.9%,平局率 97.1%,
    Elo 相差 50 分 57.1% 42.9% A 胜率 14.3%,平局率 85.7%
    Elo 相差 100 分 64.0% 36.0% A 胜率 28.0%,平局率 72.0%
    Elo 相差 200 分 76.0% 24.0% A 胜率 52.0%,平局率 48.0%
    Elo 相差 400 分 90.9% 9.1% A 胜率 81.8%,平局率 18.2%
    Elo 相差 800 分 99.0% 1.0% A 胜率 98.0%,平局率 2.0%

    换成这种的话,GLM5.1 与 Opus4.7 差的 50 分意味着:在 20 次提问中,用户有 3 次觉得 Opus4.7 的答案比 GLM5.1 更好,其余 17 次,都很好。即 3 胜 vs 17 平。

    可能这种情况更符合真实情况。
    lmmlwen
        12
    lmmlwen  
       6h 57m ago
    前 8 有一个的编码能力比 gpt5.3-codex 强吗?我看你们这些所谓的程序员或者非程序员还得沉淀沉淀
    soFollish
        13
    soFollish  
       6h 48m ago via iPhone
    Kimi 2.6 太拉了
    用的崩溃,一个小问题思考五分钟八分钟太常见了,我都搞不明白,居中一个文字到底要想些什么
    linnn2
        14
    linnn2  
       5h 12m ago
    最近试了一下 kimi 2.6 ,经常出现给一个任务,一直思考,点开 thinking 一看输出,基本都是陷入循环,空耗 token 。同样的问题,gpt 5.4 medium 就很快
    Lin0936
        15
    Lin0936  
       5h 4m ago via iPhone
    试试就知道,glm5.1 确实牙膏挤爆了,特别在 cc 里效果很好
    soFollish
        16
    soFollish  
       4h 24m ago
    @linnn2 上周有一天下班前用 k2.6 修复一个 bug, 30 分钟还没修好,我就先回家了。然后晚上吃完饭再看的时候,消耗了百分之十几的周 token 额度,跑到官方接口 5 小时限频了,然后失败,bug 也没修好。
    maix27
        17
    maix27  
       4h 1m ago
    @malagebidi 他再怎么说 SB 言论也不妨碍咱们用他的产品,他产品不 SB 就行。
    nc
        18
    nc  
       1h 42m ago
    从来不看 public benchmarks 的排名,知名的 benchmark 你猜是不是在训练数据里,因此这种排名水分很重,实际使用体验和排名差距很大。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2460 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 11:42 · PVG 19:42 · LAX 04:42 · JFK 07:42
    ♥ Do have faith in what you're doing.