在部分可观测环境下学习鲁棒的渗透测试策略：系统性评估

摘要

渗透测试（通过模拟网络攻击来识别安全漏洞）呈现出一个非常适合强化学习（RL）自动化的序列决策问题。与许多将RL应用于现实问题的场景一样，部分可观测性带来了重大挑战，因为它破坏了马尔可夫决策过程（MDPs）中存在的马尔可夫属性。部分可观测MDPs需要历史聚合或信念状态估计来学习成功的策略。我们研究了在不同规模主机网络上的随机、部分可观测渗透测试场景，旨在通过更具挑战性和代表性的基准测试更好地反映现实世界的复杂性。这种方法有助于开发更鲁棒和可迁移的策略，这对于确保在不同且不可预测的现实环境中具有可靠性能至关重要。

方法

我们以原始近端策略优化（PPO）作为基线，比较了一系列旨在缓解部分可观测性的PPO变体，包括帧堆叠、用历史信息增强观测值，以及采用循环或基于Transformer的架构。我们在不同规模的主机网络上对这些算法进行了系统的实证分析。

发现

我们发现该任务极大受益于历史聚合，收敛速度比其他方法快三倍。通过算法对学习策略进行手动检查揭示了明显差异，并提供了超越定量结果的深入见解。

技术细节

论文篇幅：27页，包含8个图表
研究领域：机器学习（cs.LG）、密码学与安全（cs.CR）
算法比较：包括帧堆叠、历史信息增强、循环神经网络和Transformer架构等多种PPO变体
实验设置：在不同规模的主机网络环境中进行系统性评估

结论

本研究为部分可观测环境下的渗透测试自动化提供了重要的方法论参考，特别是在历史信息聚合对策略学习效率的显著提升方面具有重要实践价值。