非全知条件下的单样本后门注入:线性回归与线性分类中的"一毒假设"证明
摘要
后门注入攻击对依赖不可信数据源训练的机器学习模型构成严重威胁,攻击者可通过特制输入触发模型的恶意行为。先前研究已建立后门攻击成功率及其对良性任务影响的边界,但实现成功攻击所需的最小投毒样本量仍是开放性问题。典型攻击要么需要少量样本但依赖大量数据点信息,要么需要污染大量数据点。
本文提出**“一毒假设”**:仅需单个投毒样本和有限背景知识的攻击者,能够实现零后门误差的注入,且不会显著影响良性任务性能。我们针对线性回归和线性分类模型证明了该假设——当攻击者利用良性数据分布未使用的方向构造投毒样本时,所得模型与排除该毒样本训练的模型功能等效。基于统计后门学习的现有研究,我们证明在其他情况下对良性任务的影响仍然有限,并通过现实基准数据集的实验验证了理论结果。
核心贡献
- 理论证明:严格数学推导验证单样本后门攻击在两类线性模型中的可行性
- 方向选择准则:揭示攻击向量与良性数据分布正交性对模型性能的影响机制
- 误差边界分析:量化不同攻击场景下对良性任务性能的最大扰动上限
实验验证
- 使用UCI标准数据集验证理论预测
- 对比传统多样本攻击与单样本攻击的效果差异
- 测量不同特征空间维度下攻击成功率的收敛特性
安全启示
研究结果表明,即使严格限制投毒样本数量,线性学习系统仍面临实质性安全威胁,这对机器学习供应链安全审计提出新的挑战。