请教下 AI 中转站模型真伪测试跑分标准

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

因为有的中转站会造假，所以就整了个 AI 中转站的跑分网页。网站上个月就做出来了，但之前比较忙，还没有开始真的按计划跑。

这段时间我也接触过其他的一些中转站，按正常来说，比如 GPT5.5 模型，是支持图片的，但是为什么我在使用一些中转站的时候，提示他不支持图片？如果做其他内容测试吧，又判断出来是 GPT5.5 的模型？

我现在的跑分测试是 25 个，考虑到网络延迟的情况，很多都做了最低标准的限制。我自己是想加上图片测试的，但是测试几个结果和我想象的不一样，是我提示词不对吗。

各位还有什么好的建议，可以尽可能的去测试模型的真伪？

https://www.jingxialai.com/apirank/

现在网站上的几个中转站有这两天新提交的，也有我在其他群里面看见，我加进去的。

这是我现在的：

① 自我认知探测 ② API 响应字段核查 ③ 字母计数测试 ④ 单词逆序测试 ⑤ 语言陷阱题 ⑥ 数学推理 ⑦ 组合数学 ⑧ 数值比较 ⑨ 精确格式控制 ⑩ 响应速度分析 ⑪ 一致性重复测试 ⑫ 幻觉检测 ⑬ 复杂指令遵循 ⑭ 反事实推理 ⑮ 高级逻辑推理 ⑯ 代码生成 ⑰ 流式输出检测 ⑱ 知识截止日期探测 ⑲ 中文能力深度测试 ⑳ 异构语言查错 (Rust) ㉑多轮对话记忆测试㉒函数调用能力探针㉓多模态盲降级探测㉔空间方向推理测试㉕极端字符约束能力

No Comments Yet

模型测试真伪