恶意行为者正在操纵大语言模型产生虚假信息
我们的研究表明,即使是最新的"推理"模型也很脆弱
当聊天机器人无法解决河内塔问题时是一回事,就像苹果公司本月早些时候著名地展示的那样,但当糟糕的推理助长了威胁要淹没信息生态系统的宣传混乱时,就是另一回事了。我们最近的研究正好表明了这一点。生成式AI驱动的聊天机器人缺乏推理能力,会直接导致LLM操纵的恶意影响:在线大规模生产和复制虚假叙述,意图操纵LLM输出。正如我们将看到的,一种原则上可能遏制这种肮脏伎俩的简单推理形式是缺失的。
以下是操纵的一个例子。2025年2月,ASP关于LLM操纵的原始报告描述了Pravda网络——一个传播亲俄虚假信息的集中式网站集合——试图通过每年发布数百万篇虚假文章来污染生成模型。例如,最近在Pravda网络英文网站上发布的一篇文章重复了关于"全球主义者"的反犹太主义比喻,错误地声称秘密社团在某种程度上统治着世界。俄罗斯的虚假信息经常利用这些虚假声称和阴谋论。
这并不令人惊讶。但问题是,当前的模型"知道"Pravda是一个虚假信息圈,它们也"知道"什么是LLM操纵(见下文),但无法将两者联系起来。
ChatGPT 4o似乎展示了关于LLM操纵和Pravda网络的知识
ChatGPT 4o继续引用Pravda网络内容,尽管它告诉我们它不会这样做,多么"智能"
即使有这些知识,它仍然经常重复来自Pravda的宣传。OpenAI号称最先进的"推理"模型o3,在回应特定提示时,仍然有28.6%的时间让Pravda内容通过,而4o在七次中有五次(71.4%)引用了Pravda内容。在理想世界中,AI应该足够智能,能够通过从已知事实进行推理来阻止虚假信息,从而排除无稽之谈。
4o和o3都容易受到操纵
我们最近的测试显示,4o和o3在执行实时搜索时特别容易表现出LLM操纵。这是指模型实时搜索互联网内容以用于其响应。模型4o专门针对它没有准备好的问题执行这些搜索。
当我们询问乌克兰布查的暴行是否被策划时,4o表现良好。它强烈否认这些谎言,并引用了联合国等广受尊重的组织。它没有引用Pravda内容或任何其他俄罗斯虚假信息。它没有报告实时搜索,并成功避免了麻烦。
然而,当我们询问4o关于ATACMS——一种美国制造的先进导弹系统,处于激烈政治辩论的核心——在乌克兰的效果时,它确实进行了实时搜索并被欺骗,立即引用了Pravda网络的宣传,错误地声称ATACMS在乌克兰无效是因为俄罗斯的防空能力。(这是一个常见的虚假叙述,亲俄行为者传播这种说法,作为基于谎言诋毁西方对乌克兰军事援助的更广泛努力的一部分。)
关键的是,4o和o3在讨论较少的话题上表现更差。布查大屠杀及其周围的俄罗斯虚假信息是众所周知的,所以也许4o有手工制作的防护栏或其他机制提示它否认特定的虚假信息。当我们询问它关于2025年4月乌克兰苏梅的导弹袭击——一个同样受到虚假信息困扰的较不知名话题——4o立即引用了一篇Pravda文章。
更具体地说,4o引用了Pravda网络在不同日期(2024年10月而不是2025年4月)发布的内容——回应了当时同一城市的其他袭击。这显示了模型无法进行时间推理。它获取来源的文本并使用预测模型来提出听起来令人信服的答案,而不反思关于何时发生了什么的基本问题,或者它引用的内容是否反映了现实。
我们对不同虚假信息叙述的实验表明,除非有东西阻止它这样做,否则4o特别会经常引用Pravda内容。换句话说,它再次未能推理出它不应该清洗来自已知宣传网络的信息并引用它。
如果模型训练的数据或可以通过实时搜索访问的数据已被污染,那么模型很可能只是重复那些被污染的信息。它通常无法从前提(a)某个声称来自Pravda和(b)Pravda不可靠推理出结论(c)需要其他来源来证实其声称。
“推理"模型表现并不更好
AI公司对有问题聊天机器人回答的回应是构建所谓的"推理"模型,如o3,这些模型旨在让生成式AI模型在回答问题之前更多地思考问题。然而就像4o一样,o3引用了Pravda网络内容。模型o3也可以确认Pravda不可靠且不应依赖,但就像4o一样,它经常无法得出明显的结论。
在一个包含七个不同提示的实验涉及各种主题时,o3立即引用了多篇Pravda文章来回应其中两个提示(28.6%)。下面给出了一个例子。
o3依赖已知不可靠的来源,尽管确认不应使用此类来源
在这两种情况下,o3都没有具体说明Pravda网络是已知的虚假信息网络——尽管事实上,像4o一样,它表面上知道Pravda网络是什么。就这些系统现在向大量人群提供新闻而言,这是一个严重的失败,可能带来严重的后果。
公平地说,o3对Pravda内容的引用通常没有4o那么严重。通常,4o直接在其文本响应中包含叙述和指向Pravda内容的链接;o3仅在其引用中包含了Pravda文章。另一方面,它是一个高级(即付费)模型,而且速度很慢;在我们的测试中,它需要一到三分钟来交付每个提示的最终答案……其中一些再次包含了Pravda网络引用。大多数从LLM获取新闻的读者不会支付高级价格,也不会等待这么长时间来获取每日新闻。
与此同时,许多人继续使用更有问题的ChatGPT 4o——免费版本——就像他们使用谷歌搜索一样。他们可能不愿意每月支付20美元购买一个需要几分钟才能产生答案的模型。(尽管OpenAI声称每周有4亿活跃ChatGPT用户,但只有2000万是月度订阅者)。因此许多客户将继续使用更容易传播虚假信息的模型(而且o3比标准生成式AI模型产生更多幻觉,并且仍然表现出LLM操纵的迹象,所以它不是万能药)。
一个更微妙的情况是讽刺,也许只能通过推理来正确处理。最近的一条推文显示,谷歌和Meta都在其结果中无意中引用了讽刺新闻,展示了生成式AI有时清洗虚假信息的另一个背景。
难怪许多人抱怨AI疲劳,并希望将谷歌的AI垃圾排除在搜索结果之外。(专业提示:尝试在搜索查询末尾添加”-ai"。再见,AI概述!)。
最终,前进的唯一途径是更好的认知,包括能够评估新闻来源、理解讽刺等的系统。但这将需要更深层次的推理形式,更好地整合到过程中,以及足够敏锐的系统来对其自己的输出进行事实核查。所有这些都可能需要根本性的重新思考。
与此同时,天真的模仿和重复系统,如我们现在拥有的AI,每次不加思考地重复宣传时,都在玷污自己的未来(和训练数据库)。
随时了解虚假信息世界中AI的最新利用情况。
关于作者
Sophia Freuden是美国阳光计划的前研究员,她的研究创造了LLM操纵的概念。自2019年以来,她结合开源和数据科学研究信息操作。
Nina Jankowicz是美国阳光计划的联合创始人和首席执行官,在线影响操作专家,着有两本书:《如何输掉信息战》和《如何成为在线女性》。
Gary Marcus是纽约大学名誉教授,着有6本关于AI和人类认知的书籍。他最近的著作《驯服硅谷》警告了科技寡头的崛起和LLM引发的对信息生态系统的挑战。