隐式执行权限是提示注入背后真正的故障模式
严重性:中等 类型:安全工具
我不再将提示注入主要视为一个输入净化问题,而是更多地将其视为一个权限和信任边界问题。
在许多系统中,模型输出被隐式授权去产生副作用,例如通过触发工具调用或函数执行。一旦生成过程被视为具备执行能力,净化和防护措施就变成了围绕一个已经持有权限的执行者所建立的被动防御。
我正在探索一种架构,在这种架构中,模型根本不拥有执行权限。它只生成提案。一个独立的、非生成式的控制平面是唯一被允许执行操作的组件,其执行基于固定的策略和系统状态。如果“门卫”说不,那么什么都不会运行。
从这个角度来看,提示注入之所以会失败,是因为生成行为不再意味着拥有权限。从文本到副作用之间不存在特权路径。
我很好奇,这里的各位是将其视为信任模型的一次有意义转变,还是仅仅是对现有安全系统中基于能力的模式或中介模式的重新表述。
来源: Reddit NetSec 发布时间: 2025年12月27日 星期六