驯服基于机器学习的安全任务中的数据挑战：集成生成式AI的经验教训

摘要

基于机器学习的监督分类器广泛应用于安全任务，其改进主要集中于算法进展。我们认为，对这些分类器性能产生负面影响的数据挑战受到的关注有限。我们解决了以下研究问题：生成式AI（GenAI）的发展能否解决这些数据挑战并提升分类器性能？我们提出使用GenAI技术生成的合成数据来增强训练数据集，以改善分类器的泛化能力。我们在7种不同的安全任务中评估了这一方法，使用了6种最先进的GenAI方法，并引入了一种名为Nimai的新型GenAI方案，该方案支持高度可控的数据合成。我们发现，GenAI技术可以显著提升安全分类器的性能，即使在严重数据受限的环境下（仅约180个训练样本）也能实现高达32.6%的改进。此外，我们证明GenAI可以促进部署后对概念漂变的快速适应，在调整过程中仅需最小化的标注。尽管取得了成功，但我们的研究发现，某些GenAI方案在某些安全任务上难以初始化（训练和生成数据）。我们还识别了特定任务的特征，如噪声标签、重叠的类别分布和稀疏特征向量，这些特征会阻碍使用GenAI提升性能。我们相信，我们的研究将推动未来专为安全任务设计的GenAI工具的开发。

主题

密码学与安全（cs.CR）；人工智能（cs.AI）；机器学习（cs.LG）

引用

arXiv:2507.06092 [cs.CR]
（或此版本的 arXiv:2507.06092v1 [cs.CR]）
https://doi.org/10.48550/arXiv.2507.06092

提交历史

来自：Shravya Kanchi [查看电子邮件] [v1]
2025年7月8日星期二 15:34:45 UTC（749 KB）

全文链接

查看论文PDF：
查看标题为“驯服基于机器学习的安全任务中的数据挑战：集成生成式AI的经验教训”的论文PDF，作者为Shravya Kanchi及其他5位作者
HTML（实验性）
TeX源代码
其他格式

许可

查看许可

当前浏览上下文

cs.CR

浏览更改

按以下方式浏览：
cs
cs.AI
cs.LG

参考文献与引用

NASA ADS
Google Scholar
Semantic Scholar

书目工具

书目浏览器
连接论文
Litmaps
scite.ai智能引用

代码、数据、媒体

alphaXiv
CatalyzeX代码查找器
DagsHub
GotitPub
Hugging Face
Papers with Code
ScienceCast

演示

Replicate
Hugging Face Spaces
TXYZ.AI

关于arXivLabs

arXivLabs是一个允许合作者直接在我们的网站上开发和共享新arXiv功能的实验项目框架。