OpenAI 自废 SWE-bench Verified：基准污染后， AI 编程分数还能信吗？ - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

先说结论：跑分看个参考就行，别太当真。

OpenAI 最近发了篇博文，宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题：

问题一：数据污染

SWE-bench 的题目来自开源 GitHub 仓库，而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测，发现所有前沿模型（ GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash ）都能复现标准答案：

GPT-5.2：给简短提示就能输出完整 gold patch ，精确到类名和方法名
Claude Opus 4.5：能逐字引用代码注释，准确描述 PR 删掉的代码
Gemini 3 Flash：只给任务 ID ，就输出逐字匹配的完整 diff

这不是能力强，是背过答案。

问题二：测试设计缺陷

审计了 138 道题（约 28%），每题至少 6 名工程师独立审查：

59.4% 存在测试设计缺陷
35.5% 是「窄测试」：强制检查特定实现细节，比如测试直接 import 一个特定函数名
18.8% 是「宽测试」：检查了题目描述之外的功能

SWE-bench Verified vs Pro

维度	Verified	Pro
题量	500	1865
语言	Python	Python/Go/TS/JS
平均改动量	11 行	107 行
仓库数	12	41

同一批模型：Verified ~80%，Pro ~43-50%。分数腰斩。

原文： https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

目前尚无回复

openai 基准污染

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 1198 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 21ms · UTC 17:11 · PVG 01:11 · LAX 09:11 · JFK 12:11
♥ Do have faith in what you're doing.