利用大语言模型进行基于SQL行为的数据库入侵检测
摘要
数据库系统广泛应用于存储各领域关键数据。然而,异常数据库访问行为(如内外攻击导致的数据库入侵)频率持续上升。内部伪装者通常具有更多组织知识,能更有效地模仿员工行为;外部伪装者则因缺乏组织熟悉度而行为差异明显。现有方法缺乏操作级别的细粒度检测能力,常将整个操作序列误判为异常,尽管多数操作可能代表正常行为。另一方面,某些异常行为与正常活动相似,使现有检测方法难以识别。
本文介绍了一种基于双向编码器表示转换(BERT)模型(特别是更高效的预训练版本DistilBERT)的两层异常检测方法,用于结构化查询语言(SQL)。我们的方法结合无监督和监督机器学习技术,在最小化数据标注需求的同时准确识别异常活动。首先,无监督方法使用集成异常检测器标记远离已学习正常用户行为模式的嵌入向量(范围外查询);其次,监督方法使用基于微调转换器的模型,通过角色标记分类高精度检测内部攻击(范围内查询),即使在有限标记SQL数据上也能实现。我们的研究为保护关键数据库系统免受复杂威胁提供了有效解决方案,贡献显著。
主题分类
- 密码学与安全(cs.CR)
- 数据库(cs.DB)
- 机器学习(cs.LG)
引用信息
arXiv:2508.05690 [cs.CR]
DOI: 10.48550/arXiv.2508.05690
提交历史
- 提交日期: 2025年8月6日
- 版本: v1
- 作者: Meital Shlezinger 等6位作者
全文链接
相关工具与资源
- Bibliographic Explorer: 文献浏览工具
- Connected Papers: 相关论文网络
- Litmaps: 文献地图
- scite Smart Citations: 智能引文分析
- alphaXiv: 代码与数据关联平台
- CatalyzeX: 论文代码查找器
- DagsHub: 数据科学协作平台
- GotitPub: 学术资源获取
- Hugging Face: 模型与数据集库
- Papers with Code: 带代码的论文
- ScienceCast: 科学传播平台
实验演示
- Replicate: 模型复现平台
- Hugging Face Spaces: 模型部署空间
- TXYZ.AI: AI研究工具
致谢与支持
感谢Simons基金会、成员机构及所有贡献者的支持。