非全知条件下的单样本后门注入：线性回归与线性分类中的"一毒假设"证明

摘要
后门注入攻击对依赖不可信数据源训练的机器学习模型构成严重威胁，攻击者可通过特制输入触发模型的恶意行为。先前研究已建立后门攻击成功率及其对良性任务影响的边界，但实现成功攻击所需的最小投毒样本量仍是开放性问题。典型攻击要么需要少量样本但依赖大量数据点信息，要么需要污染大量数据点。

本文提出**“一毒假设”**：仅需单个投毒样本和有限背景知识的攻击者，能够实现零后门误差的注入，且不会显著影响良性任务性能。我们针对线性回归和线性分类模型证明了该假设——当攻击者利用良性数据分布未使用的方向构造投毒样本时，所得模型与排除该毒样本训练的模型功能等效。基于统计后门学习的现有研究，我们证明在其他情况下对良性任务的影响仍然有限，并通过现实基准数据集的实验验证了理论结果。