驯服基于机器学习的安全任务中的数据挑战:集成生成式AI的经验教训
摘要
基于机器学习的监督分类器广泛应用于安全任务,其改进主要集中于算法进展。我们认为,对这些分类器性能产生负面影响的数据挑战受到的关注有限。我们解决了以下研究问题:生成式AI(GenAI)的发展能否解决这些数据挑战并提升分类器性能?我们提出使用GenAI技术生成的合成数据来增强训练数据集,以改善分类器的泛化能力。我们在7种不同的安全任务中评估了这一方法,使用了6种最先进的GenAI方法,并引入了一种名为Nimai的新型GenAI方案,该方案支持高度可控的数据合成。我们发现,GenAI技术可以显著提升安全分类器的性能,即使在严重数据受限的环境下(仅约180个训练样本)也能实现高达32.6%的改进。此外,我们证明GenAI可以促进部署后对概念漂变的快速适应,在调整过程中仅需最小化的标注。尽管取得了成功,但我们的研究发现,某些GenAI方案在某些安全任务上难以初始化(训练和生成数据)。我们还识别了特定任务的特征,如噪声标签、重叠的类别分布和稀疏特征向量,这些特征会阻碍使用GenAI提升性能。我们相信,我们的研究将推动未来专为安全任务设计的GenAI工具的开发。
主题
密码学与安全(cs.CR);人工智能(cs.AI);机器学习(cs.LG)
引用
arXiv:2507.06092 [cs.CR]
(或此版本的 arXiv:2507.06092v1 [cs.CR])
https://doi.org/10.48550/arXiv.2507.06092
提交历史
来自:Shravya Kanchi [查看电子邮件] [v1]
2025年7月8日星期二 15:34:45 UTC(749 KB)
全文链接
- 查看论文PDF:
查看标题为“驯服基于机器学习的安全任务中的数据挑战:集成生成式AI的经验教训”的论文PDF,作者为Shravya Kanchi及其他5位作者 - HTML(实验性)
- TeX源代码
- 其他格式
许可
查看许可
当前浏览上下文
cs.CR
浏览更改
按以下方式浏览:
cs
cs.AI
cs.LG
参考文献与引用
- NASA ADS
- Google Scholar
- Semantic Scholar
书目工具
- 书目浏览器
- 连接论文
- Litmaps
- scite.ai智能引用
代码、数据、媒体
- alphaXiv
- CatalyzeX代码查找器
- DagsHub
- GotitPub
- Hugging Face
- Papers with Code
- ScienceCast
演示
- Replicate
- Hugging Face Spaces
- TXYZ.AI
相关论文
- 影响力花
- CORE推荐器
关于arXivLabs
arXivLabs是一个允许合作者直接在我们的网站上开发和共享新arXiv功能的实验项目框架。