V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yarkyaonj
V2EX  ›  Claude Code

claude code 降智被实锤了

  •  1
     
  •   yarkyaonj · 19 小时 16 分钟前 · 6592 次点击

    上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。

    今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。

    可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。

    图片

    https://imgur.com/a/u7Np8Wk

    35 条回复    2026-04-13 22:55:16 +08:00
    gpt5
        1
    gpt5  
       19 小时 14 分钟前
    我也很明显感受到了它现在经常颠三倒四
    yougo
        2
    yougo  
       19 小时 0 分钟前
    https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
    hitrip
        3
    hitrip  
       18 小时 52 分钟前
    不一定是永久降智,有时候是环境 bug 引起的
    yarkyaonj
        4
    yarkyaonj  
    OP
       18 小时 50 分钟前
    @hitrip 全球用户都反映有降智现象,现在又有数据实锤
    nc
        5
    nc  
       18 小时 47 分钟前
    A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。
    FqwKVgsv
        6
    FqwKVgsv  
       18 小时 40 分钟前
    非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天
    yarkyaonj
        7
    yarkyaonj  
    OP
       18 小时 37 分钟前
    @nc 问题是这对已经付费的用户很不公平,付了一个月或者一年钱,结果半途降智
    whoosy
        8
    whoosy  
       18 小时 35 分钟前
    升级到 2.1.104 版本再试试,昨天已经变聪明了
    potatowish
        9
    potatowish  
       18 小时 12 分钟前 via iPhone
    api 也降智? 价格还是一样的
    fredweili
        10
    fredweili  
       17 小时 43 分钟前
    opus 贵的多,就用 sonnet
    yuruizhe
        11
    yuruizhe  
       16 小时 52 分钟前
    降智是什么意思?
    66beta
        12
    66beta  
       16 小时 44 分钟前
    很明显,让它从一个页面上抓取一些数据都抓不全,不过别难过,gemini 也这个吊样。如果是自己出钱,建议大家去试试国产 AI
    EthanZC
        13
    EthanZC  
       16 小时 40 分钟前
    算力不够,就这样,无解
    yarkyaonj
        14
    yarkyaonj  
    OP
       16 小时 39 分钟前
    @yuruizhe 就是变笨了,智商下降的意思
    deplives
        15
    deplives  
       16 小时 30 分钟前
    是的,最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了
    gpt5
        16
    gpt5  
       16 小时 27 分钟前
    网页版和 cli 上都明显感受到了降智
    zerovoid
        17
    zerovoid  
       16 小时 11 分钟前
    @yuruizhe #11 就跟下棋一样,比如平时高手能算到 50 步以后的局势,现在只能算到 10 步以后,那大家肯定能感觉出来这个高手变笨了。
    teaguexiao
        18
    teaguexiao  
       16 小时 6 分钟前
    最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务,能一次把上下文全理清楚;最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现,不是客户端的问题。现在形成习惯了:重要任务配合 Sonnet 一起用,Sonnet 做大部分工作,Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。
    isora
        19
    isora  
       15 小时 1 分钟前
    copilot 上也是写完让审查下代码都没发现问题,然后让 gpt5.4 审查下一下就发现问题,再把问题给 opus 确认修复
    sentinelK
        20
    sentinelK  
       14 小时 56 分钟前
    所以在如此背景的前提下,一堆人还在炒作基于 LLM 的工程化实现的优劣,简直贻笑大方。
    lsearsea
        21
    lsearsea  
       14 小时 52 分钟前 via Android
    a\还能算力不够?被谁卡脖子?
    vultr
        22
    vultr  
       14 小时 48 分钟前
    用 codex 也不错的说
    longxinglink
        23
    longxinglink  
       14 小时 5 分钟前
    我看的是这个检测网站的数据,是个带立场的跟踪站,不是完全中立
    他家用相同一套题目给 Claude 和 gpt 做,Claude 的数据对比上个月甚至还有改善,不知道楼主的数据来自那里?
    https://marginlab.ai/trackers/claude-code/
    https://marginlab.ai/trackers/codex/
    MengLUO
        24
    MengLUO  
       14 小时 0 分钟前
    某国产顶流近期一夜之间把大量月付 400 多的 max 用户账号降到连你好都 429 禁止访问
    csfreshman
        25
    csfreshman  
       13 小时 44 分钟前
    估计算力紧张,让出算力给新模型了?
    xFrye
        26
    xFrye  
       13 小时 41 分钟前
    说明新模型要出来了
    prosgtsr
        27
    prosgtsr  
       13 小时 40 分钟前
    每次要出新模型的时候,旧模型都会降智,不过以前是等等新模型出来用新模型就好了
    这次是出了新模型,但是不给你用,所以我们现在用的全都是降智的。。
    Plutooo
        28
    Plutooo  
       13 小时 40 分钟前
    要跟几天后的 gpt6 中门对狙了
    craftsmanship
        29
    craftsmanship  
       12 小时 55 分钟前 via Android
    @xFrye 已经出了 但不给用
    loveshuyuan
        30
    loveshuyuan  
       12 小时 15 分钟前
    同样感受到降智
    beimenjun
        31
    beimenjun  
    PRO
       12 小时 4 分钟前
    这家实在太爱又当又立了。

    我使用官方 200 刀套餐,周末感受到了前所未有的降智感。

    之前还说什么不会因为算力不足 blabla 。

    明显只是少数人使用的新模型,就让 Opus 算力被削弱成这样。就算今天都没恢复。
    tianhehechu
        32
    tianhehechu  
       9 小时 37 分钟前
    @yuruizhe 以人类比,人 ⌈降智⌋ 后,会在此问题下问:⌈降智是什么意思?⌋
    fovecifer
        33
    fovecifer  
       7 小时 47 分钟前
    前一阵是 token 消耗过快的问题
    现在是降智
    alexluo1
        34
    alexluo1  
       5 小时 14 分钟前
    去年有过一次全球范围的降智,是 bug 引起的,那时候我刚开了 100 刀套餐,血亏
    apibox
        35
    apibox  
       5 小时 13 分钟前
    确实,最近特别明显
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   961 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 20:08 · PVG 04:08 · LAX 13:08 · JFK 16:08
    ♥ Do have faith in what you're doing.