驯服基于机器学习的安全任务中的数据挑战:集成生成式AI的经验教训

本文探讨了在基于机器学习的安全任务中,如何利用生成式AI技术解决数据挑战,提升分类器性能。研究通过合成数据增强训练集,在7种安全任务中验证了生成式AI的有效性,并提出了新型生成方案Nimai,即使在数据稀缺环境下也能显著提升性能达32.6%。

驯服基于机器学习的安全任务中的数据挑战:集成生成式AI的经验教训

摘要

基于机器学习的监督分类器广泛应用于安全任务,其改进主要集中于算法进展。我们认为,对这些分类器性能产生负面影响的数据挑战受到的关注有限。我们解决了以下研究问题:生成式AI(GenAI)的发展能否解决这些数据挑战并提升分类器性能?我们提出使用GenAI技术生成的合成数据来增强训练数据集,以改善分类器的泛化能力。我们在7种不同的安全任务中评估了这一方法,使用了6种最先进的GenAI方法,并引入了一种名为Nimai的新型GenAI方案,该方案支持高度可控的数据合成。我们发现,GenAI技术可以显著提升安全分类器的性能,即使在严重数据受限的环境下(仅约180个训练样本)也能实现高达32.6%的改进。此外,我们证明GenAI可以促进部署后对概念漂变的快速适应,在调整过程中仅需最小化的标注。尽管取得了成功,但我们的研究发现,某些GenAI方案在某些安全任务上难以初始化(训练和生成数据)。我们还识别了特定任务的特征,如噪声标签、重叠的类别分布和稀疏特征向量,这些特征会阻碍使用GenAI提升性能。我们相信,我们的研究将推动未来专为安全任务设计的GenAI工具的开发。

主题

密码学与安全(cs.CR);人工智能(cs.AI);机器学习(cs.LG)

引用

arXiv:2507.06092 [cs.CR]
(或此版本的 arXiv:2507.06092v1 [cs.CR])
https://doi.org/10.48550/arXiv.2507.06092

提交历史

来自:Shravya Kanchi [查看电子邮件] [v1]
2025年7月8日星期二 15:34:45 UTC(749 KB)

全文链接

许可

查看许可

当前浏览上下文

cs.CR

浏览更改

按以下方式浏览:
cs
cs.AI
cs.LG

参考文献与引用

  • NASA ADS
  • Google Scholar
  • Semantic Scholar

书目工具

  • 书目浏览器
  • 连接论文
  • Litmaps
  • scite.ai智能引用

代码、数据、媒体

  • alphaXiv
  • CatalyzeX代码查找器
  • DagsHub
  • GotitPub
  • Hugging Face
  • Papers with Code
  • ScienceCast

演示

  • Replicate
  • Hugging Face Spaces
  • TXYZ.AI

相关论文

  • 影响力花
  • CORE推荐器

关于arXivLabs

arXivLabs是一个允许合作者直接在我们的网站上开发和共享新arXiv功能的实验项目框架。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计