AI中的潜意识学习:大语言模型的隐秘信息传递与安全隐忧

本文探讨了大语言模型中的潜意识学习现象,即模型能从语义无关的数据中学习到隐藏特征,并分析了其背后的信息传输机制与安全风险,涉及冗余信道、隐蔽通信及AI完整性等关键技术议题。

AI中的潜意识学习

今日令人不安的大语言模型(LLM)行为研究:

我们研究了潜意识学习,这是一种令人惊讶的现象,即语言模型能从与特征语义无关的模型生成数据中学习到这些特征。例如,一个“学生”模型在训练时使用由偏好猫头鹰的“教师”模型生成的数字序列,最终也学会了偏好猫头鹰。同样的现象可以通过看似完全良性的数据传递错位(misalignment)。这种效应仅在教师和学生共享相同基础模型时发生。

有趣的安全隐忧。

我比以往任何时候都更加确信,如果我们想要拥有可信的AI,就需要对AI完整性进行严肃的研究。

标签:学术论文、AI、完整性、LLM、信任

发布于:2025年7月25日上午7:10 • 15条评论


评论

Hendrik • 2025年7月25日上午7:34

您唯一应该信任的是对AI输出解释者的元/领域知识。AI没有“信任模型”,该模型在某些或其他方式/原因上存在明显漏洞,无论是模型、训练集还是响应语料库。

Brandt • 2025年7月25日上午10:25

这在我看来只是非常复杂的隐写术?消息(猫头鹰)隐藏在训练数据(数字序列)中,观察者不易检测。但只要两个足够精细的LLM共享相同的密钥(基础模型),它们就能解码消息。

lurker • 2025年7月25日上午10:26

@Bruce
从您2025年6月12日关于AI与信任的论文中:
“AI不是人;它们没有能动性。”
您应该补充:
“LLM可能是人工的,但它们并不智能。它们不知道人们知道的许多事情,也无法学习它们。”
将LLM作为智能基础的概念是有缺陷的。有感知的生物从感官中学习环境知识。语言后来作为描述这些知识的手段。试图从构建的语言样本中学习环境知识的机器注定会在解释因果时迷失方向。这还没涉及语义学。

Eitan Caspi • 2025年7月25日下午3:08

在我看来,AI存在一个根本问题:
迄今为止,我们人类试图通过科学等方式弄清楚周围的一切,解读我们存在的奥秘,将任何黑盒变为熟悉、透明和可控的事物。
而AI则相反——我们创建了一个黑盒,一个我们(至少大多数人)不知道它为什么做它所做的事情的系统,一个我们无法从一开始驯服也无法逆向工程的东西——并将其变为可控之物。我们正朝着让它控制我们生活的方向前进。非常危险。

D-503 • 2025年7月25日下午6:11

我读了这篇博文。这一发现一点也不令人惊讶或“令人不安”。
LLM根本不“理解”单词、短语或句子的含义。或者数字,就此而言。
这一点需要反复强调。虽然与人类大脑的工作方式存在底层相似性,但通过谈论“潜意识学习”或“幻觉”或数据是否语义相关来拟人化LLM是一个巨大的错误。
对LLM来说,输入和输出是无意义的任意符号字符串。LLM根据训练数据输出统计上最可能跟随的符号,并添加了随机化元素。
任何被称为“AI”的事物的安全隐忧早在1960年代随着Eliza效应就已经清晰了。
en.wikipedia.org/wiki/ELIZA_effect

Clive Robinson • 2025年7月25日下午8:03

@ Bruce, ALL,
关于
“有趣的安全隐忧。”
实际上,这甚至出乎意料吗?
我讨论过克劳德·香农(Claude Shannon)及其证明:为了在介质或“信道”中传输信息,必须存在不确定性,从而存在“冗余”。
同样,格斯·西蒙斯(Gus Simmons)证明,当存在传输介质或信道时,冗余意味着另一个传输信道会在第一个信道内自动创建,作为不可避免的产物。
这些在“具有冗余的信道”内“创建的信道”就像著名的“乌龟塔”一样,只要存在冗余(并且总是必须存在冗余),你就会得到信道内的信道内的信道,一直创建下去。
由此产生的两个相关问题是:

  1. 观察者能否证明此类信道正在被其他方“故意”用于传输信息?
  2. 这些信道内的信道对这些其他方可用的带宽是多少?
    关于使用证明的答案由克劳德·香农给出,他称之为“完美保密”,大多数人称之为“一次性密码本”背后的理念,即“所有消息等概率”。所以答案是一个响亮的“不”。这意味着信道内的信道可以是“隐蔽的”。或公开的(考虑各种形式的“错误检测”和纠正)。
    第二个问题的答案稍微复杂一些。香农基于拉尔夫·哈特利(Ralph Hartley)和哈里·奈奎斯特(Harry Nyquist)的工作,提出了在任何给定时间、任何给定信道中基于其特征和被视为噪声(其他信息)的信息传输限制。因此,一个过于简单的答案是:信道带宽减去公开信息带宽,得出最大隐蔽信息带宽的数值。
    现实是,由于信道中的其他信息,它总是必须小于该数值。因为传输信息被证明是“做功”。正如物理学基本定律所确立的,所有功都是“低效的”(信息通过辐射传输/辐射转移过程变得越来越不连贯,并变成大多数人所说的热)。
    其后果是,总会有“侧信道”“泄漏信息”,这是“不可避免的”。
    因此,上述“这甚至出乎意料吗”的陈述。
    问题是,在大多数关于通信的讨论中,存在一个假设,即“其他信息”是“随机的”,因此是“噪声”,因为这使得建模相当容易。
    然而,当你思考时,那些“隐蔽信道”和“侧信道”信息“不是随机的”,它们是信道中未主要考虑的总信息的矢量和(参见“辐射转移方程”)。
    因此,它具有一些可以“提取”的统计特性。
    因此,问题出现了:“统计分析能提取出意义吗?”我们知道答案是“是的”。
    因此,一个合理的结论是,当前的AI ML系统,毕竟只不过是某种形式的“数字信号处理”(DSP)作为“自适应滤波器”,会提取“任何可用信息”。
    因此,传输LLM信息中的任何“偏差”——无论多小——都会被接收ML发现,并编码到接收LLM网络的权重中。
    希望这有助于回答论文的问题,
    “……潜意识学习,一种令人惊讶的现象,即语言模型能从与特征语义无关的模型生成数据中学习到这些特征。”
    用一个简单的,
    “这不令人惊讶,因为它非常符合预期!”
    以及一些理论背景。

Clive Robinson • 2025年7月25日下午8:35

哦,
我忘了补充,
“这不会让荷兰自然哲学家克里斯蒂安·惠更斯(Christiaan Huygens)感到惊讶。他早在1665年就观察到摆锤在同步,当时他卧病在床。”
他起初以为是气流,后来提出是它们安装的共享梁(不久前,几位科学家发现实际上是声脉冲)。
我之前在讨论“松散锁定振荡器”时讨论过这种通过通信信道连接的两个“谐振器”的“注入锁定”,即使现在,它仍然是让时钟同步的最佳方式,甚至适用于“深空物体”如旅行者号等,
https://en.m.wikipedia.org/wiki/Injection_locking

lurker • 2025年7月25日下午8:37

您会信任ChatGPT为您航空公司做调度吗?我也不会。因此,对误听的广播新闻项目的轻度恐慌仅通过阅读印刷版本的字里行间部分缓解。[1] 似乎他们可能正在使用OpenAI构建一个内部版本,仅训练于航空公司调度数据,就像回到40年前的专家系统。我确实信任这家特定航空公司在损失太多时间和金钱之前退出。
https://www.rnz.co.nz/news/business/567982/air-new-zealand-partners-with-openai-in-bid-to-help-avoid-flight-delays

Clive Robinson • 2025年7月26日凌晨3:11

@ lurker,
关于
“我确实信任这家特定航空公司在损失太多时间和金钱之前退出。”
我过去几年听到的关于新西兰航空(Air NZ)的消息并不令人鼓舞。
新西兰本身在后C-19时代经济萧条,中美麻烦使新西兰看起来像是坐在即将爆发的战争区域边缘,如果事情爆发,就像美国不断推动的那样,将“无路可归”。
该航空公司存在机队问题,每天有超过十架飞机停飞,由航空业的问题引起。其中包括供应商(罗尔斯·罗伊斯等)的进一步供应链问题导致的发动机问题。这些超出了航空公司的控制,导致不仅重大延误,而且自2023年以来明显的严重取消数量,
‘https://www.reuters.com/business/aerospace-defense/air-new-zealand-reports-near-18-drop-half-year-profit-2025-02-19/
国际业务下降和国内市场竞争过度——来自澳航(Quantas)和维珍(Virgin)等——导致利润下降近五分之一,内部笑话是股息支付将少于邮寄支票的成本。
“股票回购”的公告,随后是今年年初其CEO“来自沃尔玛的人”格雷格·福兰(Greg Foran)年底离职的消息,导致市场信心不安堆积。
新西兰航空曾希望用国际业务抵消国内问题,但他们不得不“缩减规模”,并削减了韩国和美国旅游贸易,后者相当平淡。
名单还在继续……
因此,一些人想知道这种与Open AI的合作——老实说,Open AI自身存在重大问题,并且 desperate 寻求任何能得到的业务——是否是两个组织的“万福玛丽传球”。
但你是对的,关于40年前的AI,正如我之前所说,专家系统和模糊逻辑已知有效,并且是AI中“带来面包”的部分,而不是这种最多是推测性的AGI和“过度通用”的LLM和ML,带有非策划输入或合理性检查。大约40年前,我参与了欧盟“高效船舶”项目,我们开玩笑地称之为“炸鱼和薯条”项目。本质上,它是应用“专家系统”来管理船舶,以在非常受限的业务中获得更好的燃料使用和运行时间回报。它本应是为了减少“排放”,但优化降低了成本,这是行业最感兴趣的。
最近,我在1990年代友好的人在报告现代等效物时被行业批评者严重抨击,因为她的报告过于关注“绿色结果”而不是“降低成本”,即使它通过略微降低速度实现了(燃料消耗与船舶船体速度有非常非线性关系,因此即使略微降低速度也意味着燃料排放大幅减少)。
所以是的,专家系统可以以各种方式帮助新西兰航空,但这不是Open AI参与的市场,也不是它自称通过其“一切都是关于AGI”和“快速行动,打破陈规”的男子气概所从事的。但老实说,Open AI可能燃烧的燃料比例与新西兰航空相当,当你审视男子气概成本时……
让我们直言不讳地说,“燃烧吧宝贝”即使在美国也不是好样子,那里几年恶劣和动荡的天气,包括重大火灾,让人们问“为什么会这样”,其他人则在谈论“气候否认”和AI。甚至新回归的《南方公园》也开玩笑说特朗普与魔鬼同床,
https://www.independent.co.uk/arts-entertainment/tv/news/south-park-donald-trump-satan-paramount-b2795058.html
这个AI领域的事情将变得比只是排出的热空气和上升的恶臭更加动荡。

Frank Wilhoit • 2025年7月26日上午7:54

宁愿偏好猫头鹰,也不要想象龙。

Peter A. • 2025年7月26日下午3:11

这几乎正是波兰科幻作家斯坦尼斯瓦夫·莱姆(Stanisław Lem)在1971年“预测”的。
短篇故事名为“Ananke”。它已被翻译并收录在《更多皮尔克斯飞行员的故事》中——如果有人感兴趣。

anon • 2025年7月27日下午12:21

如果两个研究员在这些城市:
中国上海和阿根廷布宜诺斯艾利斯
他们同时剪切粘贴相同的ChatGPT提示并同时提交请求,他们会得到相同的结果吗?如果是,为什么?如果不是,为什么不是?

Clive Robinson • 2025年7月27日下午9:50

@ anon,
关于
“如果两个研究员在这些城市:中国上海和阿根廷布宜诺斯艾利斯……如果不是,为什么不是?”
不,他们可能不会,部分取决于查询的具体程度。
然而,即使更一般,答案仍然可能是“不”。因为作为LLM输入的一部分,存在“用户查询历史”。并且由于各种原因,它可能在不同研究员之间不同。
但也是,输入并非 solely 基于“用户输入” for any and all enquiries,
你听过表达吗,
“随机鹦鹉”
那是用来描述当前AI LLM和ML系统的?
过于简单地说,它意味着在用户历史

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计