利用大语言模型进行基于SQL行为的数据库入侵检测

摘要

数据库系统广泛应用于存储各领域关键数据。然而，异常数据库访问行为（如内外攻击导致的数据库入侵）频率持续上升。内部伪装者通常具有更多组织知识，能更有效地模仿员工行为；外部伪装者则因缺乏组织熟悉度而行为差异明显。现有方法缺乏操作级别的细粒度检测能力，常将整个操作序列误判为异常，尽管多数操作可能代表正常行为。另一方面，某些异常行为与正常活动相似，使现有检测方法难以识别。

本文介绍了一种基于双向编码器表示转换（BERT）模型（特别是更高效的预训练版本DistilBERT）的两层异常检测方法，用于结构化查询语言（SQL）。我们的方法结合无监督和监督机器学习技术，在最小化数据标注需求的同时准确识别异常活动。首先，无监督方法使用集成异常检测器标记远离已学习正常用户行为模式的嵌入向量（范围外查询）；其次，监督方法使用基于微调转换器的模型，通过角色标记分类高精度检测内部攻击（范围内查询），即使在有限标记SQL数据上也能实现。我们的研究为保护关键数据库系统免受复杂威胁提供了有效解决方案，贡献显著。

主题分类

密码学与安全（cs.CR）
数据库（cs.DB）
机器学习（cs.LG）

引用信息

arXiv:2508.05690 [cs.CR]
DOI: 10.48550/arXiv.2508.05690

提交历史

提交日期: 2025年8月6日
版本: v1
作者: Meital Shlezinger 等6位作者

全文链接

实验演示

Replicate: 模型复现平台
Hugging Face Spaces: 模型部署空间
TXYZ.AI: AI研究工具

致谢与支持

感谢Simons基金会、成员机构及所有贡献者的支持。

基于大语言模型的SQL行为数据库入侵检测技术解析

本文提出了一种利用DistilBERT大语言模型的两层异常检测方法，结合无监督与监督机器学习技术，精准识别数据库SQL查询中的异常行为，有效防御内外攻击，减少数据标注需求，提升数据库系统安全防护能力。