生成式AI时代的负责任技术挑战

本文探讨生成式AI技术带来的新型负责任AI挑战,包括公平性定义困难、隐私泄露风险、内容毒性问题、模型幻觉现象及知识产权争议,并分析可能的解决方案与技术发展方向。

近年来,甚至近几个月来,被称为生成式AI的技术取得了快速而显著的进展。生成式AI模型在难以想象的大规模文本、代码、图像和其他丰富数据集合上进行训练。它们现在能够按需生成连贯而引人入胜的故事、新闻摘要、诗歌、歌词、绘画和程序。生成式AI的实际潜在用途才刚刚开始被理解,但很可能多种多样且具有革命性,包括写作辅助、创意内容制作和精炼、个人助理、文案撰写、代码生成等等。

因此,人们对生成式AI可能带来的变革和新机遇感到相当兴奋。也存在可以理解的担忧——其中一些是传统负责任AI问题的新变体,另一些则是全新的问题。在本文中,我将概述这些担忧以及如何随着时间的推移解决它们。

什么是生成式AI?

要理解生成式AI是什么及其工作原理,从大语言模型的例子开始会有所帮助。想象一个思想实验:我们从一个句子片段开始,然后调查人们接下来会添加什么词。如果我们调查足够多的人群,就会出现下一个词的概率分布。然后我们可以从该分布中随机选择一个词,现在我们的序列会更长一个词,我们可以再次调查下一个词。通过这种方式,我们理论上可以生成整个故事。

机器学习的显著进步实际上使这个思想实验成为现实。但不是调查人群,我们使用一个模型来预测可能的下一个词,该模型在大量文档集合上训练——包括小说和非小说的公共集合、维基百科条目和新闻文章、人类对话记录、开源代码等等。

如果训练数据包含足够多以某个片段开头的句子,就很容易为我们初始片段采样合理的下一个词。但大语言模型也能泛化和创造,而且并不总是以人类可能预期的方式。由此产生的模型与其训练数据一样复杂,通常由数千亿个数字描述,因此称为“大”语言模型。

大语言模型变得如此优秀,以至于它们不仅始终生成语法正确的文本,而且创建的内容连贯且常常引人入胜,与给定片段的语气和风格相匹配。给它们一个童话开头,它们就生成童话;给它们看似新闻文章的开头,它们就写出类似新闻的文章。最新的大语言模型甚至可以遵循指令,而不仅仅是扩展提示。

生成式AI不仅限于文本,许多模型结合了语言和图像。构建此类系统的技术比大语言模型稍微复杂一些,涉及学习文本和图像之间接近度的模型。

上述例子表明生成式AI是一种娱乐形式,但许多潜在的实际用途也开始出现。所以对生成式AI当前和潜在应用的兴奋感是明显且不断增长的。但生成式AI也引发了AI和机器学习负责任使用方面的一些新风险和挑战。

那么问题是什么?

生成式AI中的“生成”指的是该技术可以产生开放式内容,这些内容随着重复尝试而变化。这与机器学习的更传统用途形成对比,后者通常解决非常专注和狭窄的预测问题。

例如,考虑训练一个用于消费者贷款的模型,预测申请人是否会成功偿还贷款。此类模型仅进行贷款结果预测,无法生成童话、改进语法、产生异想天开的图像、编写代码等等。与生成式AI相比,它确实是一个非常狭窄和有限的模型。

但这些局限性也使得负责任AI的某些维度的应用更加易于管理。考虑使我们的贷款模型公平的目标,这通常意味着没有人口统计偏见。一旦有了这个公平性定义,我们可以在训练过程中寻求强制执行它。审计给定模型对此类公平性概念的遵守情况也很容易。

现在考虑确保大语言模型公平的问题。我们甚至可能是什么意思?从我们的贷款模型中获取提示,我们可能要求大语言模型平等对待男性和女性。但显然,仅衡量这一狭窄的公平概念很快就会变得难以处理。甚至在什么背景下应该强制执行它也不明显。

为大语言模型定义公平性比我们上面暗示的更加模糊,再次是因为它们生成的开放式内容。所以我们为生成式AI可以产生的丰富、创造性、开放式内容付出的代价之一是,定义、衡量和执行公平性变得相应地更加困难。

从公平性到隐私

类似地,让我们考虑隐私问题。当然,消费者贷款模型不泄露训练数据中个体申请人的财务或其他数据信息很重要。对于这种更狭窄的传统机器学习,现在有技术通过确保模型输出不过度依赖任何特定训练数据来减轻此类泄露。

但生成式AI的开放式性质将担忧集合从训练数据的逐字泄露扩展到更微妙的复制现象。例如,如果程序员使用某些变量名编写了一些代码,然后要求大语言模型帮助编写子程序,大语言模型可能从其训练数据生成代码,但原始变量名被程序员选择的名称替换。所以生成的代码在训练数据中不是字面存在的,而仅在外观上不同。

存在针对这些挑战的防御措施,包括策划训练数据以排除私人信息,以及检测代码段落相似性的技术。但更微妙的复制形式也是可能的,这最终会渗入生成式AI再现其训练数据内容“风格”的场景。

负责任生成式AI的特殊挑战

所以负责任AI的通常担忧对生成式AI变得更加困难。但生成式AI也引发了对于更狭窄的预测模型根本不存在的挑战。让我们考虑其中一些。

毒性。 生成式AI的一个主要担忧是可能生成冒犯性、令人不安或其他不适当的内容。再次,甚至定义和界定问题都很困难。确定什么构成毒性内容所涉及的主观性是一个额外的挑战,限制毒性内容和审查制度之间的界限可能模糊且依赖于背景和文化。

幻觉。 考虑到大语言模型采用的下一词分布抽样,在更客观或事实的用例中,大语言模型容易受到所谓的幻觉的影响——这也许并不令人惊讶。例如,当前大语言模型的一个常见现象是创建不存在的科学引用。如果提示其中一个模型请求告知有关某作者的一些论文,它实际上不是在搜索合法引用,而是从与该作者相关的词分布中生成引用。结果将是机器学习领域中现实的标题和主题,但不是真实文章,并且可能包括合理的合著者但不是实际的合著者。

知识产权。 早期大语言模型的一个问题是它们偶尔产生文本或代码段落,这些段落是它们训练数据部分的逐字重复,导致隐私和其他担忧。但即使在这方面有所改进,也未能防止训练内容的再现更加模糊和微妙。考虑前述多模态生成模型的提示。如果模型能够以令人信服但仍原创的方式这样做,因为它是在实际图像上训练的,对此类模仿的反对可能会出现。

抄袭和作弊。 生成式AI的创造能力引起担忧,它将被用于撰写大学论文、工作申请的写作样本以及其他形式的作弊或非法复制。关于此主题的辩论正在大学和许多其他机构进行,态度差异很大。

工作性质的颠覆。 生成式AI能够创造引人入胜的文本和图像、在标准化测试中表现良好、就给定主题撰写整篇文章以及成功总结或改进提供文章的语法的熟练程度,引起了一些焦虑,即某些职业可能被该技术取代或严重颠覆。虽然这可能为时过早,但生成式AI似乎确实将对工作的许多方面产生变革性影响,允许许多以前无法自动化的任务委托给机器。

我们能做什么?

上面列出的挑战可能看起来令人畏惧,部分原因是与前几代AI相比它们多么陌生。但随着技术人员和社会更多地了解生成式AI及其用途和局限性,新的科学和政策已经在创建以应对这些挑战。

对于毒性和公平性,仔细策划训练数据可以提供一些改进。毕竟,如果数据不包含任何冒犯性或偏见词或短语,大语言模型根本无法生成它们。但这种方法要求我们提前识别那些冒犯性短语,并确定在输出中绝对没有任何我们想要它们的背景。特定用例测试也可以帮助解决公平性问题。

对于不太有针对性的毒性概念,一种自然的方法是训练我们可以称为护栏模型,检测并过滤掉训练数据、输入提示和生成输出中不需要的内容。此类模型需要人工标注的训练数据,其中识别了不同类型和程度的毒性或偏见,模型可以从中泛化。

对于产生无幻觉的高保真内容的挑战,重要的第一步是教育用户生成式AI实际如何工作,因此不期望生成的引用或类似新闻的故事总是真实或事实正确的。确实,一些当前的大语言模型,当被追问无法引用实际引用时,会告诉用户它们只是语言模型,不通过外部来源验证其内容。此类免责声明应该更频繁和清晰。幻觉引用的具体情况可以通过使用检索增强生成等方法,用独立的、经过验证的引用数据库和类似来源增强大语言模型来减轻。

围绕知识产权的担忧可能会随着时间的推移通过技术、政策和法律机制的混合来解决。在短期内,围绕各种模型剥夺概念的科学正在兴起,其中受保护内容或其对生成输出的影响被减少或移除。最终可能证明相关的一项技术是差分隐私,其中模型以确保任何特定训练数据对模型随后产生的输出具有可忽略影响的方式训练。

另一种方法是所谓的分片方法,将训练数据分成更小的部分,在这些部分上训练单独的子模型;然后子模型组合形成整体模型。为了撤销任何特定数据项对整体模型的影响,我们只需要从其分片中移除它并重新训练该子模型,而不是重新训练整个模型。

最后,我们可以考虑过滤或阻塞方法,在呈现给用户之前,生成的内容与训练数据或其他地方的受保护内容进行明确比较,如果太相似则被抑制。限制任何特定内容在训练数据中出现的次数也有助于减少逐字输出。

一些有趣的方法来阻止使用生成式AI作弊已经在开发中。一种是简单地训练一个模型来检测给定文本是由人类还是生成模型产生的。一个潜在的缺点是这在检测模型和生成式AI之间创造了军备竞赛,并且由于生成式AI的目的是产生可能由人类产生的高质量内容,尚不清楚检测方法是否会长期成功。

一个有趣的替代方案是水印或指纹方法,将由生成模型开发者自己实施。例如,由于大语言模型在每个步骤都是从给定迄今为止文本的下一个词分布中抽取,我们可以将候选词分成“红”和“绿”列表,每个大约占概率的50%;然后我们可以让大语言模型仅从绿列表中抽取。由于绿列表上的词不为用户所知,人类产生一个10词句子也仅从绿列表中抽取的可能性是½的10次方,仅约为0.0009。通过这种方式,我们可以将全绿内容视为提供大语言模型生成的虚拟证明。注意,大语言模型开发者需要提供此类证明或证书作为其服务产品的一部分。

我们所知的工作颠覆没有任何明显的技术防御,观点在事情将如何解决上差异很大。显然,生成式AI可以在许多专业环境中成为有效的生产力工具,这至少会改变当前人类和机器之间的分工。该技术也可能向更广泛的社区开放现有职业,甚至创造新的就业形式。

但也许对抗生成式AI担忧的最大防御可能来自最终用例的专业化。目前,生成式AI被视为一个迷人的、开放式的游乐场,其中我们的期望和目标不明确。正如我们讨论的,这种开放式和大量可能用途是我概述的负责任AI挑战的主要来源。

但很快会出现更多应用和专注的用途。例如,考虑使用大语言模型作为虚拟焦点小组——创建描述假设个体及其人口统计属性的提示,然后询问大语言模型他们可能更喜欢两种描述产品中的哪一种。在此应用中,我们可能较少担心审查内容,而更关心移除任何甚至远程有毒的输出。我们可能选择不消除性别与对某些产品亲和力之间的相关性以服务于公平性,因为此类相关性对营销人员很有价值。要点是,我们对生成式AI的目标越具体,做出合理的依赖于背景的选择就越容易;当我们的期望模糊时,我们的选择变得更加令人担忧和困难。

最后,我们注意到最终用户教育和培训将在生成式AI的生产性和安全使用中发挥关键作用。随着生成式AI的潜在用途和危害得到更好和更广泛的理解,用户将用他们自己的常识补充我上面概述的一些防御。

结论

生成式AI既激起了合理的热情,也激起了合理的恐惧。我试图部分调查担忧的格局,并提出解决它们的前瞻性方法。应该强调的是,解决生成时代的负责任AI风险将是一个迭代过程:不会一劳永逸地“做好”。这个格局肯定会发生变化,技术和我们对它的态度都会发生变化;唯一不变的是在担忧上平衡热情与实用有效检查的必要性。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计