• 请不要在回答技术问题时复制粘贴 AI 生成的内容
laov2
V2EX  ›  程序员

请教下 AI 中转站模型真伪测试跑分标准

  •  
  •   laov2 · 5h 28m ago · 283 views

    因为有的中转站会造假,所以就整了个 AI 中转站的跑分网页。 网站上个月就做出来了,但之前比较忙,还没有开始真的按计划跑。

    这段时间我也接触过其他的一些中转站,按正常来说,比如 GPT5.5 模型,是支持图片的, 但是为什么我在使用一些中转站的时候,提示他不支持图片?如果做其他内容测试吧,又判断出来是 GPT5.5 的模型?

    我现在的跑分测试是 25 个,考虑到网络延迟的情况,很多都做了最低标准的限制。 我自己是想加上图片测试的,但是测试几个结果和我想象的不一样,是我提示词不对吗。

    各位还有什么好的建议,可以尽可能的去测试模型的真伪?

    https://www.jingxialai.com/apirank/

    现在网站上的几个中转站有这两天新提交的,也有我在其他群里面看见,我加进去的。

    这是我现在的:

    ① 自我认知探测 ② API 响应字段核查 ③ 字母计数测试 ④ 单词逆序测试 ⑤ 语言陷阱题 ⑥ 数学推理 ⑦ 组合数学 ⑧ 数值比较 ⑨ 精确格式控制 ⑩ 响应速度分析 ⑪ 一致性重复测试 ⑫ 幻觉检测 ⑬ 复杂指令遵循 ⑭ 反事实推理 ⑮ 高级逻辑推理 ⑯ 代码生成 ⑰ 流式输出检测 ⑱ 知识截止日期探测 ⑲ 中文能力深度测试 ⑳ 异构语言查错 (Rust) ㉑ 多轮对话记忆测试 ㉒ 函数调用能力探针 ㉓ 多模态盲降级探测 ㉔ 空间方向推理测试 ㉕ 极端字符约束能力

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1048 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 18:37 · PVG 02:37 · LAX 11:37 · JFK 14:37
    ♥ Do have faith in what you're doing.