实时无效化机器人广告点击

机器人广告点击检测的任务是判断电商网站上的广告点击是由人类还是软件代理发起。其目标是确保广告主活动不会因机器人行为而被计费，同时避免错误无效化人类点击。该系统必须实时运作，以最小化对广告主体验的干扰，并具备可扩展性、全面性、精确性，以及快速响应变化流量模式的能力。

在今年的创新人工智能应用会议（IAAI）上，我们提出了SLIDR（切片级机器人检测），这是一个通过弱监督训练的实时深度神经网络模型，用于识别在线广告的无效点击。SLIDR自2021年起在某中心部署，保护广告主活动免受机器人点击影响。

挑战

在线广告中检测机器人活动面临多种挑战：

由于无法大规模获取准确真实标签，我们通过识别两种极不可能由机器人执行的高门槛活动来生成数据标签：

导致购买的广告点击；
来自具有高RFM评分客户账户的广告点击。RFM评分代表客户在某中心购买模式的近期性（R）、频率（F）和货币价值（M）。此类点击被标记为人类；所有剩余点击被标记为非人类。

由于缺乏可靠的真实标签，无法使用准确率等典型指标评估模型性能。因此我们转向三个更具体的指标：

模型考虑多种输入特征以区分机器人和人类行为：

神经网络是一个二元分类器，由三个全连接层组成，中间层使用ReLU激活和L2正则化。

在训练模型时，我们使用样本权重，使点击在一天中的小时、一周中的天、登录状态和标签值上等效加权。发现样本权重对提高模型性能和稳定性至关重要，尤其对于稀疏数据切片（如夜间小时）。

与逻辑回归和计算点击速度分数的启发式规则等基线相比，基线缺乏建模复杂模式的能力，因此性能不如神经网络。

校准涉及选择模型输出概率的阈值，高于该阈值的所有点击被标记为无效。模型应无效化某些高度机器人的点击，同时不因无效化人类点击而导致高收入损失。一种选择是选取IVR-FPR曲线的“拐点”，超过该点误报率相比IVR增加急剧上升。

但跨所有流量切片一起校准模型会导致不同切片的不同行为。例如，通过整体校准获得的决策阈值应用于桌面切片时可能校准不足：较低概率阈值可能无效化更多机器人。同样，当全局决策阈值应用于移动切片时可能校准过度：较高概率阈值可能在不影响机器人覆盖率的情况下恢复一些收入损失。

为确保所有流量切片的公平性，我们将校准表述为一个凸优化问题。通过固定整体FPR预算（所有切片组合FPR的上限）进行跨所有切片的联合优化，求解以最大化所有切片的组合IVR。优化必须满足两个条件：（1）每个切片具有最小机器人覆盖率，为其FPR建立下限；（2）所有切片的组合FPR不应超过FPR预算。

由于每个切片的IVR-FPR曲线可以近似为FPR的二次函数，求解联合优化问题为每个切片找到适当的值。发现切片级校准对降低整体FPR和提高机器人覆盖率至关重要。

为快速适应变化的机器人模式，我们构建了一个离线系统，每天重新训练和重新校准模型。对于传入流量请求，实时组件使用Redis和只读数据库缓存的组合计算特征值，并在水平可扩展的GPU实例集群上运行神经网络推理。为满足实时约束，整个推理服务在某机构云上运行，p99.9延迟低于五毫秒。

为解决重新训练和重新校准期间的数据和模型异常，我们对输入训练数据和模型性能设置了某些防护措施。例如，当几小时内缺少购买标签时，模型可能学会无效化大量流量。诸如每周每小时最小人类密度等防护措施防止此类行为。

我们还开发了灾难恢复机制，如当观察到剧烈指标偏差时快速回滚到先前稳定模型，以及一个重放工具，可以通过先前稳定模型重放流量或重新计算实时特征并发布延迟决策，有助于防止高影响事件。

未来，我们计划向模型添加更多特征，如用户、IP、UserAgents和搜索查询的学习表示。我们在NeurIPS 2022论文“大规模表格数据的自监督预训练”中提出了该方向的初步工作。我们还计划试验深度和交叉网络等先进神经架构，可以有效捕获表格数据中的特征交互。

致谢：Muneeb Ahmed