SPATA:系统化模式分析实现详细透明的数据卡
摘要
由于人工智能对数据扰动和对抗样本的敏感性,在部署任何机器学习模型之前进行彻底的鲁棒性评估至关重要。然而,检查模型的决策边界和识别潜在漏洞通常需要访问训练和测试数据集,这可能对数据隐私和机密性构成风险。为了提升处理机密数据或管理关键基础设施组织的透明度,必须允许在不披露私有数据集的情况下进行AI的外部验证。本文提出系统化模式分析,这是一种确定性方法,可将任何表格数据集转换为其统计模式的领域无关表示,以提供更详细和透明的数据卡。SPATA将每个数据实例投影到离散空间中进行分析和比较,而不会造成数据泄露风险。这些投影数据集可可靠地用于评估不同特征如何影响机器学习模型鲁棒性,并生成其行为的可解释说明,有助于实现更可信的AI。
技术细节
- 方法特性:确定性转换方法
- 数据类型:表格数据集
- 核心创新:领域无关的统计模式表示
- 安全优势:避免原始数据泄露
- 应用场景:模型鲁棒性评估、行为解释生成
实验信息
- 篇幅:16页
- 包含:3个表格,6个图例
- 会议:SynDAiTE, ECML PKDD 2025
学科分类
- 机器学习
- 密码学与安全