V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Zane3
V2EX  ›  分享发现

OpenAI 自废 SWE-bench Verified:基准污染后, AI 编程分数还能信吗?

  •  
  •   Zane3 · 13 小时 50 分钟前 · 256 次点击

    先说结论:跑分看个参考就行,别太当真。

    OpenAI 最近发了篇博文,宣布停止使用自家的 SWE-bench Verified 基准。查出了两个致命问题:

    问题一:数据污染

    SWE-bench 的题目来自开源 GitHub 仓库,而这些仓库也是模型训练数据的来源。OpenAI 做了污染检测,发现所有前沿模型( GPT-5.2 、Claude Opus 4.5 、Gemini 3 Flash )都能复现标准答案:

    • GPT-5.2:给简短提示就能输出完整 gold patch ,精确到类名和方法名
    • Claude Opus 4.5:能逐字引用代码注释,准确描述 PR 删掉的代码
    • Gemini 3 Flash:只给任务 ID ,就输出逐字匹配的完整 diff

    这不是能力强,是背过答案。

    问题二:测试设计缺陷

    审计了 138 道题(约 28%),每题至少 6 名工程师独立审查:

    • 59.4% 存在测试设计缺陷
    • 35.5% 是「窄测试」:强制检查特定实现细节,比如测试直接 import 一个特定函数名
    • 18.8% 是「宽测试」:检查了题目描述之外的功能

    SWE-bench Verified vs Pro

    维度 Verified Pro
    题量 500 1865
    语言 Python Python/Go/TS/JS
    平均改动量 11 行 107 行
    仓库数 12 41

    同一批模型:Verified ~80%,Pro ~43-50%。分数腰斩。

    原文: https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1198 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 17:11 · PVG 01:11 · LAX 09:11 · JFK 12:11
    ♥ Do have faith in what you're doing.