OneShield——下一代LLM防护栏技术

本文介绍OneShield,一种独立、模型无关且可定制的大型语言模型防护解决方案。它支持定义风险因素、表达上下文安全与合规策略,并专注于为特定客户缓解LLM风险,同时讨论了框架实现、可扩展性考量及部署使用统计。

OneShield——下一代LLM防护栏

大型语言模型(LLM)的兴起引发了对其在各种应用中巨大潜力的广泛兴奋。尽管LLM提供了许多可能性,但关于安全性、隐私和伦理的问题也随之出现,所有关键参与者都在努力通过为其自身模型和独立解决方案采取保护措施来解决这些问题。LLM不断演变的特性使得普遍保护用户免受其潜在风险的任务极具挑战性,且一刀切的解决方案不可行。

在这项工作中,我们提出了OneShield,这是一种独立的、模型无关且可定制的解决方案,用于保护LLM。OneShield旨在提供定义风险因素、表达和声明上下文安全与合规策略以及缓解LLM风险的功能,重点关注每个特定客户。我们描述了该框架的实现、可扩展性考量,并提供了OneShield自首次部署以来的使用统计数据。

主题分类:
密码学与安全(cs.CR);人工智能(cs.AI);计算与语言(cs.CL)

引用信息:
arXiv:2507.21170 [cs.CR]
(或此版本的 arXiv:2507.21170v1 [cs.CR])
DOI: https://doi.org/10.48550/arXiv.2507.21170

提交历史:
来自:Anna Lisa Gentile [查看电子邮件] [v1]
2025年7月25日星期五 19:44:38 UTC(239 KB)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计