1
beyondstars 19 小时 57 分钟前
我记得这类 agent 软件支持设置为每一步操作都经过 approve 的吧
|
2
libii 16 小时 27 分钟前
思路跟我开发的 github.com/kocort/kocort 很类似哦,策略工具可以直接改用一个本地模型做拦截
|
3
one121121 OP @beyondstars 对,他们确实有逐步审批模式,但有两个场景它处理不了:一是自动化流水线里没有人在盯着批准;二是单步看起来完全正常、人也会批准,但跨多步组合起来是攻击链。AgentTrust 主要解决的是这两块,尤其是第二个——语义层面的多步风险识别,纯审批模式识别不出来。
|
4
one121121 OP @libii 去看了一下,确实有不少相似的地方!我这边目前侧重的是规则引擎 + 语言模型兜底的混合判断,以及跨会话的攻击链检测。你用本地模型做拦截这个思路很有意思,延迟和隐私方面会有优势。有机会可以交流一下。
|
5
blueskeay 15 小时 57 分钟前
语言模型兜底的情况下有对缓存做什么处理吗
比如上次请求体是 100K ,这次是 110K 只有 10K 的新 token ,这个情况能处理吗 |
6
one121121 OP @blueskeay 目前没有专门针对这个场景做缓存优化,AgentTrust 本身是无状态的拦截层,每次请求独立处理。
你说的这个场景如果接入了 Anthropic 或 OpenAI 的提示词缓存,缓存命中的部分理论上不重复计费,但 AgentTrust 这层目前没有感知缓存状态的机制,也没有做增量 token 的差分识别。 这其实是个值得做的方向 感谢提出这个问题!!! |
7
one121121 OP @blueskeay 刚针对这个场景做了更新,现在支持增量感知——会对比前后两次请求体,只对新增的 token 部分做安全评估,避免重复分析整个上下文。欢迎试试看,有问题随时反馈。
|
8
vt2rexm 12 小时 56 分钟前
大意是用 AI 去审核 AI 吗?
对于有着能够篡改/攻破 claude code 能力的威胁模型来说大概率也是能够篡改/攻破你的这个产品的。 |
9
one121121 OP @vt2rexm 这个问题问到点上了。用语言模型兜底确实存在被对抗样本绕过的风险,这不是能完全否认的。
但当前架构的设计思路是分层防御:规则引擎是第一道关,不依赖语言模型,纯模式匹配,攻击者没办法用提示词注入绕过它;语言模型只在规则判断不确定的模糊地带才介入,不是唯一防线。 你说的场景也正是这个方向下一步需要研究的核心问题之一。目前没有完美答案,这也是为什么我把它定位成研究框架而不是生产级安全产品。如果你对这块有想法欢迎开 issue 讨论。 |
10
jones2000 3 小时 35 分钟前
这种只能从系统底层去 hook 截获, 上层的拦截没什么用。
比如配置好哪些系统的 API 允许调用, 或 API 里面的接口里面的参数在允许阈值内可以调用。直接 hook 系统 API , 如 fopen, fwrite 等等。 如果是往外发送的数据, 本机网络层截获数据,脱敏以后再发送。 找一个开源的杀毒软件,改改应该就可以。 |