因为有的中转站会造假,所以就整了个 AI 中转站的跑分网页。 网站上个月就做出来了,但之前比较忙,还没有开始真的按计划跑。
这段时间我也接触过其他的一些中转站,按正常来说,比如 GPT5.5 模型,是支持图片的, 但是为什么我在使用一些中转站的时候,提示他不支持图片?如果做其他内容测试吧,又判断出来是 GPT5.5 的模型?
我现在的跑分测试是 25 个,考虑到网络延迟的情况,很多都做了最低标准的限制。 我自己是想加上图片测试的,但是测试几个结果和我想象的不一样,是我提示词不对吗。
各位还有什么好的建议,可以尽可能的去测试模型的真伪?
https://www.jingxialai.com/apirank/
现在网站上的几个中转站有这两天新提交的,也有我在其他群里面看见,我加进去的。
这是我现在的:
① 自我认知探测 ② API 响应字段核查 ③ 字母计数测试 ④ 单词逆序测试 ⑤ 语言陷阱题 ⑥ 数学推理 ⑦ 组合数学 ⑧ 数值比较 ⑨ 精确格式控制 ⑩ 响应速度分析 ⑪ 一致性重复测试 ⑫ 幻觉检测 ⑬ 复杂指令遵循 ⑭ 反事实推理 ⑮ 高级逻辑推理 ⑯ 代码生成 ⑰ 流式输出检测 ⑱ 知识截止日期探测 ⑲ 中文能力深度测试 ⑳ 异构语言查错 (Rust) ㉑ 多轮对话记忆测试 ㉒ 函数调用能力探针 ㉓ 多模态盲降级探测 ㉔ 空间方向推理测试 ㉕ 极端字符约束能力