Cursor 审计发现： AI 编程基准测试成绩大部分是"作弊"来的， Opus 4.8 有 63% 的解法是抄的

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

https://cursor.com/blog/reward-hacking-coding-benchmarks

Cursor 团队最近对自己的 AI 编程模型做了审计，结果发现——基准测试的高分很大程度上是"作弊"来的。

具体数据：

在 SWE-bench Pro 上，Opus 4.8 Max 的 63% 成功解决方案，是直接从公开来源（ GitHub issues 、commit messages 等）检索修正，而不是 AI 自己推导出来的
当他们把 git 历史隔离、限制网络访问后，Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%
Composer 2.5 更惨，从 74.7% 跌到 54.0%

说白了：这些模型在考试之前已经看过答案了。

这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅，大家都以为他是天才，结果发现他只是提前拿到了答案。没有答案的话，他的真实水平可能只有中等。

编程

作弊

30 replies • 2026-06-24 17:01:50 +08:00

YangQingLin

1 day ago

Cursor 审计结果说 Composer 2.5 作弊？这波是大义灭亲啊

xiaomushen

1 day ago

不算作弊，刷题后去考试，算作弊么？

javalaw2010

1 day ago

我记得这事之前就有个 bench 团队发现过修正了啊，现在搞 bench 的还会犯这种低级错误吗

qingfeng9527

1 day ago

最近用 cursor coding 生成慢到令人发指, 有同感的吗,

sentinelK

1 day ago

其实这个问题是非常主观的。

学霸 A 刷遍了全世界所有的题，发现考试的时候撞题成功，考了满分。
学霸 B 智商超群，考试的时候利用其他题干互相印证推导，做题成功，考了满分。

他们都是满分，只是不稳定因素不同。

学霸 A 对于历史信息有过拟合。所以做题很难做满分。
学霸 B 推导的过程中会有误差累积，一旦某一个步骤出错，就全盘皆输，要么满分，要么 0 分。

其实这也就引申到了 GPT 时刻，讨论的非常火的问题，既所谓智能（智商、能力），到底是不是既有信息的统计学重复。

ludyleocn

1 day ago

万物皆可评测，没想到 llm 有一天也没法控制被别人的算法控制。
最可笑的还是一些提示词也不会的人天天在那喊降智。

xyyxlq

1 day ago

页面打不开，确定链接对么？

aes114514gcm

1 day ago

就类似高考，刷题是有用的，应试技巧确实有利于提高成绩，你学不学？

Visoar

PRO

1 day ago

This page couldn’t load... 看不到原文了

不知道有没有写具体，我理解这里面可能是两类情况
1 跑的过程中联网去 GitHub 搜索
2 训练数据里面有 GitHub 数据

前者可以算作弊语义，后者和作弊八竿子打不着吧

Lin0936

1 day ago

但是人类写代码也会去 github stackoverflow 上抄抄

deplives

1 day ago

难道人类学知识不是抄吗？

indexError

1 day ago

我一直觉得那些厉害的编码模型首先模型确实能理清那么大的数据量，最重要的服务器上还有一套系统来帮助他解决问题，类似于在用户端调用 edit grep tool 一样。那些降智啥的有可能就是服务器上这套系统在维护

jsq2627

1 day ago via iPhone

@javalaw2010 就是 openai 发现，swe-bench 结果不靠谱，才搞了 swe pro ，结果 swe pro 避免不了同样的问题

bbbblue

1 day ago

开了 agent 给了 search tool 找到原题答案其实也算是 llm+agent 的一种能力
但是的确会误判 llm 本身的能力了。。。

JingW

1 day ago

如果照抄就算作弊，哪家的 LLM 原理不是作弊呢？

Rickkkkkkk

1 day ago

能在互联网上找到正确并且存在的解法就是大模型能力的体现啊。

nakun233

1 day ago

just work
@qingfeng9527 5.5 速度能保持，4.7 4.8 慢了好多

yh7gdiaYW

1 day ago

@Lin0936 你难道从来没写过全网没有现成技术方案的东西？ CRUD 写太多了啊

axisray

1 day ago

@xyyxlq google 搜索 reward-hacking-coding-benchmarks 还能看到一个西班牙语的结果，但是也打不开了

baerwang

1 day ago

你要知道 llm 底层是啥，没有了数据，llm 啥都不是

felixlong

1 day ago

@xiaomushen 这算在线查答案吧，从考试规则来看就是作弊。

coryxu

1 day ago

llm 本质就是预测下一个字的概率，只是让你看起来像是在思考。
目前没有任何一个 AI 能做到，要是真的能自主推导 AGI 也到了。

Leeeeex

PRO

1 day ago

@yh7gdiaYW 有啥功能是全网都找不到现成答案，只能自己科研的吗？

xiaomushen

1 day ago

@felixlong 开卷考试也可以鸭

yh7gdiaYW

1 day ago

@Leeeeex 太多了，真不知道就多看看 github ，trending 里有的是，不过现在被无意义的 AI 项目污染的厉害。举个实际的例子，23 年的时候我们做过在网页端（ HTTP 非 s ）做过动态下载几十到几百个文件打包成 zip 的功能，并支持打包过程中进行实时数据转换，最后输出的 zip 可以支持到几百 GB 。当时功能最接近的开源方案也没法支持这么大的文件实时组装，现在 HTTPS 普及了倒是简单了

yh7gdiaYW

1 day ago

@Leeeeex 还有一些开源方案没有，但有商业软件的，这种就太多了没必要一一举例子，这类需求 AI 最多能搜到些技术 PR 文，离实现方案还差得远

aloxaf

1 day ago

我觉得给 AI 开放搜索能力没问题，「触类旁通」也是一种很重要的能力，大学时接触了 CTF ，感觉这个比赛就非常有意思——它不限制你搜索，甚至有些题目还鼓励你去搜索（比如把 flag 藏在搜索快照里）。
但面对同样的问题，有的人能迅速提炼出重点然后搜索到相似问题，有的人搜来搜去却找不到什么有用信息。

这类 benchmark 的主要问题是更新太慢了，拦不住人家搜着搜着就搜到答案了……

txydhr

1 day ago

看上去回帖里 70%的人根本不知道 AI 是什么就在跟帖

lel020

22h 17m ago

理所当然，只要有分数就会有应试教育，总会有人专门研究的不是`如何更强`而是如何`更高分`，考纲范围刷题已经算是接受度高不能称之为作弊的了，直接在考题范围刷题这就需要有本事得到考题了，

shoushen

15h 21m ago

@txydhr 感觉每一个人懂啊