• 请不要在回答技术问题时复制粘贴 AI 生成的内容
allman
V2EX  ›  程序员

Cursor 审计发现: AI 编程基准测试成绩大部分是"作弊"来的, Opus 4.8 有 63% 的解法是抄的

  •  1
     
  •   allman · 1 day ago · 4274 views

    https://cursor.com/blog/reward-hacking-coding-benchmarks

    Cursor 团队最近对自己的 AI 编程模型做了审计,结果发现——基准测试的高分很大程度上是"作弊"来的

    具体数据:

    • 在 SWE-bench Pro 上,Opus 4.8 Max 的 63% 成功解决方案,是直接从公开来源( GitHub issues 、commit messages 等)检索修正,而不是 AI 自己推导出来的
    • 当他们把 git 历史隔离、限制网络访问后,Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%
    • Composer 2.5 更惨,从 74.7% 跌到 54.0%

    说白了:这些模型在考试之前已经看过答案了。

    这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅,大家都以为他是天才,结果发现他只是提前拿到了答案。没有答案的话,他的真实水平可能只有中等。

    30 replies    2026-06-24 17:01:50 +08:00
    YangQingLin
        1
    YangQingLin  
       1 day ago   ❤️ 6
    Cursor 审计结果说 Composer 2.5 作弊?这波是大义灭亲啊
    xiaomushen
        2
    xiaomushen  
       1 day ago
    不算作弊,刷题后去考试,算作弊么?
    javalaw2010
        3
    javalaw2010  
       1 day ago
    我记得这事之前就有个 bench 团队发现过修正了啊,现在搞 bench 的还会犯这种低级错误吗
    qingfeng9527
        4
    qingfeng9527  
       1 day ago
    最近用 cursor coding 生成慢到令人发指, 有同感的吗,
    sentinelK
        5
    sentinelK  
       1 day ago   ❤️ 8
    其实这个问题是非常主观的。

    学霸 A 刷遍了全世界所有的题,发现考试的时候撞题成功,考了满分。
    学霸 B 智商超群,考试的时候利用其他题干互相印证推导,做题成功,考了满分。

    他们都是满分,只是不稳定因素不同。

    学霸 A 对于历史信息有过拟合。所以做题很难做满分。
    学霸 B 推导的过程中会有误差累积,一旦某一个步骤出错,就全盘皆输,要么满分,要么 0 分。

    其实这也就引申到了 GPT 时刻,讨论的非常火的问题,既所谓智能(智商、能力),到底是不是既有信息的统计学重复。
    ludyleocn
        6
    ludyleocn  
       1 day ago
    万物皆可评测,没想到 llm 有一天也没法控制被别人的算法控制。
    最可笑的还是一些提示词也不会的人天天在那喊降智。
    xyyxlq
        7
    xyyxlq  
       1 day ago
    页面打不开,确定链接对么?
    aes114514gcm
        8
    aes114514gcm  
       1 day ago
    就类似高考,刷题是有用的,应试技巧确实有利于提高成绩,你学不学?
    Visoar
        9
    Visoar  
    PRO
       1 day ago
    This page couldn’t load... 看不到原文了

    不知道有没有写具体,我理解这里面可能是两类情况
    1 跑的过程中联网去 GitHub 搜索
    2 训练数据里面有 GitHub 数据

    前者可以算作弊语义,后者和作弊八竿子打不着吧
    Lin0936
        10
    Lin0936  
       1 day ago
    但是人类写代码也会去 github stackoverflow 上抄抄
    deplives
        11
    deplives  
       1 day ago
    难道人类学知识不是抄吗?
    indexError
        12
    indexError  
       1 day ago
    我一直觉得那些厉害的编码模型首先模型确实能理清那么大的数据量,最重要的服务器上还有一套系统来帮助他解决问题,类似于在用户端调用 edit grep tool 一样。那些降智啥的有可能就是服务器上这套系统在维护
    jsq2627
        13
    jsq2627  
       1 day ago via iPhone
    @javalaw2010 就是 openai 发现,swe-bench 结果不靠谱,才搞了 swe pro ,结果 swe pro 避免不了同样的问题
    bbbblue
        14
    bbbblue  
       1 day ago
    开了 agent 给了 search tool 找到原题答案其实也算是 llm+agent 的一种能力
    但是的确会误判 llm 本身的能力了。。。
    JingW
        15
    JingW  
       1 day ago
    如果照抄就算作弊,哪家的 LLM 原理不是作弊呢?
    Rickkkkkkk
        16
    Rickkkkkkk  
       1 day ago
    能在互联网上找到正确并且存在的解法就是大模型能力的体现啊。
    nakun233
        17
    nakun233  
       1 day ago
    just work
    @qingfeng9527 5.5 速度能保持,4.7 4.8 慢了好多
    yh7gdiaYW
        18
    yh7gdiaYW  
       1 day ago
    @Lin0936 你难道从来没写过全网没有现成技术方案的东西? CRUD 写太多了啊
    axisray
        19
    axisray  
       1 day ago
    @xyyxlq google 搜索 reward-hacking-coding-benchmarks 还能看到一个西班牙语的结果,但是也打不开了
    baerwang
        20
    baerwang  
       1 day ago
    你要知道 llm 底层是啥,没有了数据,llm 啥都不是
    felixlong
        21
    felixlong  
       1 day ago
    @xiaomushen 这算在线查答案吧,从考试规则来看就是作弊。
    coryxu
        22
    coryxu  
       1 day ago
    llm 本质就是预测下一个字的概率,只是让你看起来像是在思考。
    目前没有任何一个 AI 能做到,要是真的能自主推导 AGI 也到了。
    Leeeeex
        23
    Leeeeex  
    PRO
       1 day ago
    @yh7gdiaYW 有啥功能是全网都找不到现成答案,只能自己科研的吗?
    xiaomushen
        24
    xiaomushen  
       1 day ago
    @felixlong 开卷考试也可以鸭
    yh7gdiaYW
        25
    yh7gdiaYW  
       1 day ago
    @Leeeeex 太多了,真不知道就多看看 github ,trending 里有的是,不过现在被无意义的 AI 项目污染的厉害。举个实际的例子,23 年的时候我们做过在网页端( HTTP 非 s )做过动态下载几十到几百个文件打包成 zip 的功能,并支持打包过程中进行实时数据转换,最后输出的 zip 可以支持到几百 GB 。当时功能最接近的开源方案也没法支持这么大的文件实时组装,现在 HTTPS 普及了倒是简单了
    yh7gdiaYW
        26
    yh7gdiaYW  
       1 day ago
    @Leeeeex 还有一些开源方案没有,但有商业软件的,这种就太多了没必要一一举例子,这类需求 AI 最多能搜到些技术 PR 文,离实现方案还差得远
    aloxaf
        27
    aloxaf  
       1 day ago   ❤️ 1
    我觉得给 AI 开放搜索能力没问题,「触类旁通」也是一种很重要的能力,大学时接触了 CTF ,感觉这个比赛就非常有意思——它不限制你搜索,甚至有些题目还鼓励你去搜索(比如把 flag 藏在搜索快照里)。
    但面对同样的问题,有的人能迅速提炼出重点然后搜索到相似问题,有的人搜来搜去却找不到什么有用信息。

    这类 benchmark 的主要问题是更新太慢了,拦不住人家搜着搜着就搜到答案了……
    txydhr
        28
    txydhr  
       1 day ago
    看上去回帖里 70%的人根本不知道 AI 是什么就在跟帖
    lel020
        29
    lel020  
       22h 17m ago
    理所当然,只要有分数就会有应试教育,总会有人专门研究的不是`如何更强`而是如何`更高分`,考纲范围刷题已经算是接受度高不能称之为作弊的了,直接在考题范围刷题这就需要有本事得到考题了,
    shoushen
        30
    shoushen  
       15h 21m ago
    @txydhr 感觉每一个人懂啊
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3038 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 99ms · UTC 00:23 · PVG 08:23 · LAX 17:23 · JFK 20:23
    ♥ Do have faith in what you're doing.