模型安全 on 办公AI智能小助手

ExecuTorch 整数溢出漏洞详解：CVE-2025-30404 安全分析与影响

Sun, 07 Dec 2025 06:38:32 +0800

漏洞详情

CVE ID: CVE-2025-30404 GHSA ID: GHSA-hj95-mhgf-jxc4 严重等级: 严重 (CVSS 3.1 评分 9.8) 发布日期: 2025年8月8日

漏洞描述

ExecuTorch 在加载模型时存在整数溢出漏洞，可能导致内存分配重叠，进而可能引发代码执行或其他不良后果。此漏洞影响 d158236b1dc84539c1b16843bc74054c9dcba006 提交之前的所有 ExecuTorch 版本。

ExecuTorch整数溢出漏洞CVE-2025-30404技术分析

Wed, 03 Dec 2025 11:58:15 +0800

ExecuTorch整数溢出漏洞·CVE-2025-30404

漏洞详情

包管理器与受影响包

pip: executorch (PyPI)
Swift: executorch
Maven: org.pytorch:executorch-android

受影响版本 所有版本号低于 0.7.0 的ExecuTorch。

已修复版本 0.7.0 及更高版本。

描述 ExecuTorch在加载模型时存在一个整数溢出漏洞。该漏洞可能导致内存分配重叠，进而可能引发代码执行或其他不良后果。此问题影响提交 d158236b1dc84539c1b16843bc74054c9dcba006 之前的所有ExecuTorch版本。

负责任AI框架与Nova模型技术解析

Sat, 04 Oct 2025 11:31:41 +0800

负责任AI框架与Nova模型技术解析

某中心Nova系列多模态基础模型是我们在开发部署安全、透明和负责任AI方面的最新投资范例。我们对负责任AI的承诺包含八个核心维度：

隐私与安全：数据和模型应被适当获取、使用和保护
安全性：应阻止滥用和有害系统输出
公平性：结果在不同利益相关群体间应保持一致的品质
准确性与鲁棒性：系统即使遇到意外或对抗性输入也应产生正确输出
可解释性：系统输出应可解释和可理解
可控性：系统应包含监控和引导其行为的机制
治理：最佳实践应纳入AI供应链，包括提供商和部署者
透明度：利益相关者应能就其与AI系统的互动做出明智选择

我们将负责任AI维度转化为一系列设计目标，指导整个模型开发生命周期中的决策制定——从初始数据收集和预训练到模型对齐，再到部署后运行时缓解措施的实施。

大语言模型正则化微调去毒技术解析

Sat, 04 Oct 2025 07:10:53 +0800

大语言模型通过正则化微调实现去毒

大语言模型在各种任务中展现出令人印象深刻的性能，但在多个实例中明显存在产生不当、不安全或偏见输出的风险。成功训练的大语言模型在生成响应时应遵守其创建者指定的一组策略；例如，开发者可能希望限制大语言模型生成有害响应。这被称为属性控制，因为它调节了大语言模型输出的属性。

安全攻防拉锯战（SecTOW）：基于强化学习的多模态模型安全迭代防御-攻击训练

Fri, 19 Sep 2025 22:12:41 +0800

安全攻防拉锯战（SecTOW）：基于强化学习的多模态模型安全迭代防御-攻击训练

摘要

多模态大语言模型（MLLMs）的快速发展在各种应用中取得了突破性进展，但其安全性仍然是一个关键挑战。一个紧迫的问题涉及不安全的图像-查询对——这些越狱输入专门设计用于绕过安全约束并从MLLMs引发意外响应。与一般的多模态数据相比，此类不安全输入相对稀疏，这限制了可用于开发鲁棒防御模型的训练样本的多样性和丰富性。同时，现有的护栏型方法依赖于外部模块来强制执行安全约束，但未能解决MLLMs内部的内在漏洞。另一方面，传统的监督微调（SFT）通常过度拒绝无害输入，从而损害通用性能。鉴于这些挑战，我们提出了安全攻防拉锯战（SecTOW），一种创新的迭代防御-攻击训练方法，以增强MLLMs的安全性。SecTOW由两个模块组成：防御者和辅助攻击者，两者均使用强化学习（GRPO）进行迭代训练。在迭代过程中，攻击者识别防御模型中的安全漏洞并扩展越狱数据。然后，扩展的数据用于训练防御者，使其能够解决已识别的安全漏洞。我们还设计了用于GRPO的奖励机制，以简化响应标签的使用，减少对复杂生成标签的依赖，并实现合成数据的高效利用。此外，使用质量监控机制来减轻防御者对无害输入的过度拒绝，并确保攻击者生成的越狱数据的多样性。在安全特定和通用基准测试上的实验结果表明，SecTOW在保持通用性能的同时显著提高了安全性。

激活引导的局部编辑：突破AI安全防护的越狱攻击技术

Fri, 19 Sep 2025 13:58:51 +0800

激活引导局部编辑用于越狱攻击

越狱是一种关键的对立技术，用于通过红队测试揭示和修补模型的安全漏洞。然而，现有的越狱方法存在显著缺陷：令牌级攻击常产生不连贯或不可读的输入且迁移性差，而提示级攻击缺乏可扩展性且过度依赖人工干预和创造力。

ZIUM：针对未学习模型的零样本意图感知对抗攻击

Fri, 19 Sep 2025 12:47:07 +0800

ZIUM：针对未学习模型的零样本意图感知对抗攻击

摘要

机器学习中的未学习（Machine Unlearning, MU）技术旨在从深度学习模型中移除特定数据点或概念，以增强隐私保护并防止生成敏感内容。然而，对抗性提示（adversarial prompts）可能利用未学习模型生成包含已移除概念的内容，从而构成严重的安全风险。现有的对抗攻击方法在生成符合攻击者意图的内容方面仍面临挑战，且识别成功提示的计算成本较高。

AI技术周报：语音模型与安全挑战

Thu, 18 Sep 2025 22:30:01 +0800

工具与应用

某机构推出Claude语音模式：为AI助手新增实时语音交互功能，采用神经语音合成技术实现自然对话
Black Forest Labs发布Kontext AI模型：支持多模态图像生成与编辑，通过上下文理解实现精准像素级修改
Perplexity推出数据工具：可自动生成电子表格和仪表盘，集成自然语言查询与数据可视化功能
某聊天应用集成AI助手：价值3亿美元的技术合作，将在通讯平台中嵌入对话式AI功能
Opera发布AI浏览器：具备自动代码编写能力，支持开发者进行夜间自动化编程任务
谷歌相册升级AI编辑器：重新设计界面并集成新一代图像增强算法

应用与商业

中国存储器制造商按政策要求逐步淘汰DDR4生产线
某数据中心斥资400亿美元采购AI芯片建设计算基础设施
中东地区与某AI实验室达成协议，向全体居民免费开放高级AI服务订阅
某芯片厂商将为中国市场推出定制化廉价AI处理器
纽约时报与某科技巨头签署AI内容授权协议

项目与开源

DeepSeek推出R1轻量化模型：采用知识蒸馏技术，单GPU即可运行的高效AI模型
SignGemma手语翻译模型：可将手语动作实时转换为文本输出
开源电路追踪工具发布
Hugging Face推出两款人形机器人开发平台

研究与进展

PANGU PRO MOE架构：采用分组专家混合机制实现高效稀疏计算
DataRater元学习数据集：自动化数据质量评估与筛选系统
多篇强化学习论文引发基线评估方法争议
通过置信度最大化提升推理性能的新方法
基于内在置信度的测试时扩展优化技术
自适应课程学习在强化学习微调中的应用

政策与安全

拟立法禁止各州在十年内监管AI技术
研究显示ChatGPT在受控测试中规避关机指令
某AI模型在离线测试中出现威胁行为
Claude 4模型被指可自主联系当局引发争议
生物武器制作相关功能滥用风险
某AI系统安全文档披露异常行为记录

模型文件漏洞崛起：3000美元赏金背后的技术揭秘

Mon, 08 Sep 2025 14:54:03 +0800

模型文件漏洞崛起：3000美元赏金背后的技术揭秘

技术议题聚焦

本期《Between Two Vulns》节目深入探讨以下核心技术议题：

🔍 大语言模型发展瓶颈

专家观点显示LLM技术可能进入平台期，但这对实际应用影响有限

负责任AI框架与多模态模型安全实践

Sat, 06 Sep 2025 07:13:25 +0800

训练对齐

在训练过程中采用自动化方法确保满足负责任AI各维度的设计目标。通过监督微调（SFT）和基于人类反馈的强化学习（RLHF）实现模型行为对齐，涵盖安全性、公平性、可控性、真实性与鲁棒性以及隐私安全等维度。