上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。
今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。
可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。
1
gpt5 19 小时 14 分钟前
我也很明显感受到了它现在经常颠三倒四
|
2
yougo 19 小时 0 分钟前
https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
|
3
hitrip 18 小时 52 分钟前
不一定是永久降智,有时候是环境 bug 引起的
|
5
nc 18 小时 47 分钟前
A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。
|
6
FqwKVgsv 18 小时 40 分钟前
非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天
|
8
whoosy 18 小时 35 分钟前
升级到 2.1.104 版本再试试,昨天已经变聪明了
|
9
potatowish 18 小时 12 分钟前 via iPhone
api 也降智? 价格还是一样的
|
10
fredweili 17 小时 43 分钟前
opus 贵的多,就用 sonnet
|
11
yuruizhe 16 小时 52 分钟前
降智是什么意思?
|
12
66beta 16 小时 44 分钟前
很明显,让它从一个页面上抓取一些数据都抓不全,不过别难过,gemini 也这个吊样。如果是自己出钱,建议大家去试试国产 AI
|
13
EthanZC 16 小时 40 分钟前
算力不够,就这样,无解
|
15
deplives 16 小时 30 分钟前
是的,最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了
|
16
gpt5 16 小时 27 分钟前
网页版和 cli 上都明显感受到了降智
|
18
teaguexiao 16 小时 6 分钟前
最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务,能一次把上下文全理清楚;最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现,不是客户端的问题。现在形成习惯了:重要任务配合 Sonnet 一起用,Sonnet 做大部分工作,Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。
|
19
isora 15 小时 1 分钟前
copilot 上也是写完让审查下代码都没发现问题,然后让 gpt5.4 审查下一下就发现问题,再把问题给 opus 确认修复
|
20
sentinelK 14 小时 56 分钟前
所以在如此背景的前提下,一堆人还在炒作基于 LLM 的工程化实现的优劣,简直贻笑大方。
|
21
lsearsea 14 小时 52 分钟前 via Android
a\还能算力不够?被谁卡脖子?
|
22
vultr 14 小时 48 分钟前
用 codex 也不错的说
|
23
longxinglink 14 小时 5 分钟前
我看的是这个检测网站的数据,是个带立场的跟踪站,不是完全中立
他家用相同一套题目给 Claude 和 gpt 做,Claude 的数据对比上个月甚至还有改善,不知道楼主的数据来自那里? https://marginlab.ai/trackers/claude-code/ https://marginlab.ai/trackers/codex/ |
24
MengLUO 14 小时 0 分钟前
某国产顶流近期一夜之间把大量月付 400 多的 max 用户账号降到连你好都 429 禁止访问
|
25
csfreshman 13 小时 44 分钟前
估计算力紧张,让出算力给新模型了?
|
26
xFrye 13 小时 41 分钟前
说明新模型要出来了
|
27
prosgtsr 13 小时 40 分钟前
每次要出新模型的时候,旧模型都会降智,不过以前是等等新模型出来用新模型就好了
这次是出了新模型,但是不给你用,所以我们现在用的全都是降智的。。 |
28
Plutooo 13 小时 40 分钟前
要跟几天后的 gpt6 中门对狙了
|
29
craftsmanship 12 小时 55 分钟前 via Android
@xFrye 已经出了 但不给用
|
30
loveshuyuan 12 小时 15 分钟前
同样感受到降智
|
31
beimenjun PRO 这家实在太爱又当又立了。
我使用官方 200 刀套餐,周末感受到了前所未有的降智感。 之前还说什么不会因为算力不足 blabla 。 明显只是少数人使用的新模型,就让 Opus 算力被削弱成这样。就算今天都没恢复。 |
32
tianhehechu 9 小时 37 分钟前
@yuruizhe 以人类比,人 ⌈降智⌋ 后,会在此问题下问:⌈降智是什么意思?⌋
|
33
fovecifer 7 小时 47 分钟前
前一阵是 token 消耗过快的问题
现在是降智 |
34
alexluo1 5 小时 14 分钟前
去年有过一次全球范围的降智,是 bug 引起的,那时候我刚开了 100 刀套餐,血亏
|
35
apibox 5 小时 13 分钟前
确实,最近特别明显
|