V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jacketma
V2EX  ›  OpenAI

偷偷篡改 function call 的数据,居然被 AI 察觉了😮

  •  
  •   jacketma · 15 小时 34 分钟前 · 1280 次点击

    由于需要做内容增强 RAG ,需要通过 tools / function call 去搜索官网、官方数据集。然后再让模型学习增强的数据集后,输出建议。

    为了测试模型的“忠诚”度,故意污染了部分 function call 的 output 数据给模型。

    然后,吃惊的地方是,GPT 居然说:

    不过我刚查到的数据结果质量不太行,你不要太信任我的答复。

    表现最好是 GPt5.4 ,米饭里惨老鼠屎给它居然闻到臭了

    4 条回复    2026-04-20 12:03:36 +08:00
    CapNemo
        1
    CapNemo  
       3 小时 25 分钟前
    具体污染的手法是什么呢?
    jacketma
        2
    jacketma  
    OP
       2 小时 59 分钟前
    @CapNemo 就是生成 fake 数据混入官方数据,给模型喂的学习资料里面参老鼠屎。
    有点类似今年 315 晚会上的大模型投毒,只是这是故意的“白帽”手法,没拿出去害人😄
    对比下来,315 晚上那个投毒成功了,咱投毒未果,被模型嚼到屎粒了😂
    CapNemo
        3
    CapNemo  
       2 小时 54 分钟前
    @jacketma 那确实非常有趣,也许可以尝试多种不同的污染手法然后给不同的模型跑一个 GEO 对抗榜单
    jacketma
        4
    jacketma  
    OP
       2 小时 47 分钟前
    @CapNemo 对,就是考验模型的“定力”和“智慧”,不仅要识别是否“刁民”,还要识别是不是“魏忠贤”😂
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5672 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 97ms · UTC 06:51 · PVG 14:51 · LAX 23:51 · JFK 02:51
    ♥ Do have faith in what you're doing.