先说结论:跑分看个参考就行,别太当真。
OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题:
SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案:
这不是能力强,是背过答案。
审计了 138 道题(约 28%),每题至少 6 名工程师独立审查:
| 维度 | Verified | Pro |
|---|---|---|
| 题量 | 500 | 1865 |
| 语言 | Python | Python/Go/TS/JS |
| 平均改动量 | 11 行 | 107 行 |
| 仓库数 | 12 | 41 |
同一批模型:Verified ~80%,Pro ~43-50%。分数腰斩。
原文: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/