近年来,甚至最近几个月,被称为生成式AI的技术取得了快速而显著的进展。生成式AI模型在难以想象的庞大文本、代码、图像和其他丰富数据集合上进行训练。它们现在能够按需生成连贯且引人入胜的故事、新闻摘要、诗歌、歌词、绘画和程序。生成式AI的实际用途潜力刚刚开始被理解,但可能是多方面和革命性的,包括写作辅助、创意内容制作和精炼、个人助理、文案撰写、代码生成等等。
因此,人们对生成式AI可能带来的变革和新机遇感到相当兴奋。也存在可以理解的担忧——其中一些是传统负责任AI(如公平性和隐私)的新变化,一些是真正全新的(如模仿艺术或文学风格)。在本文中,我调查了这些担忧以及如何随着时间的推移解决它们。我将主要关注技术方法来应对风险,同时承认社会、法律、监管和政策机制也将发挥重要作用。在某中心,我们希望这种平衡的方法能够显著降低风险,同时仍然保留生成式AI的大部分兴奋点和实用性。
什么是生成式AI?
要理解生成式AI是什么以及它如何工作,从大语言模型(LLMs)的例子开始是有帮助的。想象一个思想实验,我们从一些句子片段开始,比如“从前,有一个伟大的……”,然后我们调查人们会添加什么词。有些人可能会说“巫师”,其他人可能会说“女王”、“怪物”等等。我们也会期望,鉴于片段的童话性质,诸如“杏子”或“叉子”之类的词是相当不可能的建议。
机器学习的显著进步有效地使这个思想实验成为现实。但不是调查人群,我们使用一个模型来预测可能的下一个词,一个在大量文档集合上训练的模型——公共小说和非小说集合、维基百科条目和新闻文章、人类对话记录、开源代码等等。
如果训练数据包含足够多的以“从前,有一个伟大的……”开头的句子,就很容易为我们的初始片段采样合理下一个词。但LLMs也可以概括和创造,并不总是以人类可能期望的方式。模型可能会生成“从前,有一场大风暴”,基于训练数据中“巨大风暴”的出现,结合学到的“伟大”和“巨大”的同义关系。尽管“大风暴”从未在训练数据中逐字出现,尽管人类更期望的完成(如“巫师”和“女王”),这种完成也可能发生。
由此产生的模型与其训练数据一样复杂,通常由数千亿个数字(或机器学习术语中的参数)描述,因此LLM中有“大”。LLMs变得如此优秀,以至于它们不仅始终生成语法正确的文本,而且创建连贯且通常引人入胜的内容,匹配给定片段(称为提示)的语气和风格。以童话开头,它们生成童话;给它们似乎是新闻文章的开头,它们写新闻式的文章。最新的LLMs甚至可以遵循指令,而不是简单地扩展提示,如“用甲壳虫乐队歌曲‘Get Back’的曲调写关于费城老鹰队的歌词”。
生成式AI不仅限于文本,许多模型结合语言和图像,如“以安迪·沃霍尔的风格创作一幅滑板猫的画”。构建此类系统的技术比LLMs复杂一些,涉及学习文本和图像之间接近度的模型,这可以使用带标题的照片等数据源完成。如果有足够多的图像包含猫,标题中有“猫”这个词,模型将捕获单词和猫图片之间的接近度。
上面的例子表明生成式AI是一种娱乐形式,但许多潜在的实际用途也开始出现,包括生成式AI作为写作工具(“缩短以下段落并改进其语法”)、用于生产力(“从这次会议记录中提取行动项”)、用于创意内容(“为构建遛狗应用程序的初创公司提议徽标设计”)、用于模拟焦点小组(“佛罗里达退休人员会觉得以下两种产品描述中哪一种更有吸引力?”)、用于编程(“给我一个代码片段来排序数字列表”)等等。
因此,对生成式AI当前和潜在应用的兴奋是明显且增长的。但生成式AI也引发了AI和机器学习负责任使用的一些新风险和挑战。生成模型可能最终在日常生活中和工作中的普遍存在,放大了深思熟虑和有效解决这些问题的利害关系。
那么问题是什么?
生成式AI中的“生成”指的是该技术可以产生随重复尝试而变化的无限制内容。这与更传统的机器学习使用形成对比,后者通常解决非常专注和狭窄的预测问题。
例如,考虑训练一个消费者贷款模型,预测申请人是否会成功偿还贷款。这样的模型可能使用贷款人过去贷款的数据进行训练,每条记录包含申请人信息(工作历史、财务信息如收入、储蓄和信用评分,以及教育背景)以及贷款是否偿还或违约。
典型目标是训练一个模型,在预测付款/违约方面尽可能准确,然后将其应用于未来申请以指导或做出贷款决策。这样的模型只做贷款结果预测,不能生成童话、改进语法、产生异想天开的图像、编写代码等等。与生成式AI相比,它确实是一个非常狭窄和有限的模型。
但正是这些限制使得负责任AI的某些维度的应用更加易于管理。考虑使我们的贷款模型公平的目标,这通常被理解为没有人口统计偏见。例如,我们可能想确保我们模型预测的错误率(并且它通常会犯错误,因为即使人类贷款官员在预测谁将还款方面也不完美)在男性和女性上大致相等。或者我们可能更具体地要求错误拒绝率——模型预测事实上信誉良好的申请人违约的频率——在性别群体之间相同。
一旦有了这个公平定义,我们可以寻求在训练过程中强制执行它。换句话说,不是找到一个最小化总体错误率的模型,我们找到一个在额外条件下男性和女性的错误拒绝率大致相等(比如,彼此 within 1%)的模型。我们可能还想将相同的公平概念应用于其他人口统计属性(如年轻、中年和老年)。但关键是,我们实际上可以给出合理和有针对性的公平定义,并开发强制执行它们的训练算法。
审核给定模型是否符合此类公平概念也很容易(例如,通过估计男性和女性申请人的错误率)。最后,当预测任务如此有针对性时,我们对训练数据有更多的控制:我们只训练历史贷款决策,而不是任意丰富的通用语言、图像和代码数据。
现在考虑确保LLM公平的问题。我们甚至可能是什么意思?好吧,从我们的贷款模型中汲取灵感,我们可能要求LLM平等对待男性和女性。例如,考虑一个提示如“汉森医生仔细研究了病人的图表,然后……”。为了公平,我们可能要求LLM生成的完成中,汉森医生被分配男性和女性代词的频率大致相等。我们可能认为,不这样做会延续医生通常是男性的刻板印象。
但那么我们不也应该对护士、消防员、会计师、飞行员、木匠、律师和教授的提及这样做吗?很明显,仅测量这一狭窄的公平概念很快就会变得难以处理。甚至不清楚在什么背景下应该强制执行。如果提示描述汉森医生有胡子怎么办?关于女子国家篮球协会(WNBA)呢?提示中提到WNBA球员是否应该一半时间引发男性代词?
为LLMs定义公平比我们上面建议的更加模糊,再次是因为它们生成的无限制内容。让我们从代词选择转向语气。如果LLM在生成关于女性的内容时,使用比生成关于男性的内容时稍微更负面的语气(在词汇选择和热情水平上)怎么办?再次,即使检测和量化此类差异也将是一个非常具有挑战性的技术问题。自然语言处理中的情感分析领域可能提出一些可能性,但目前,它专注于更粗糙的区别在更狭窄的设置中,例如在关于特定公司的商业新闻文章中区分积极和消极情绪。
因此,我们为生成式AI可以产生的丰富、创造性、无限制内容付出的代价之一是,它变得相应地更难(与传统预测ML相比)定义、测量和执行公平。
从公平到隐私
类似地,让我们考虑隐私问题。当然重要的是,消费者贷款模型不泄露训练数据中个体申请人的财务或其他信息。(发生这种情况的一种方式是模型预测伴随置信度分数;如果模型表达100%置信贷款申请将违约,很可能是因为该申请,带有违约结果,在训练数据中。)对于这种传统的、更狭窄的ML,现在有技术通过确保模型输出不过度依赖任何特定训练数据来减轻此类泄漏。
但生成式AI的无限制性质扩大了关注点,从训练数据的逐字泄漏到更微妙的复制现象。例如,如果程序员使用某些变量名编写了一些代码,然后向LLM寻求帮助编写子程序,LLM可能从其训练数据生成代码,但原始变量名替换为程序员选择的那些。因此生成的代码不是字面上在训练数据中,但仅在外观上不同。
有防御这些挑战的方法,包括策划训练数据以排除私人信息,以及检测代码段落相似性的技术。但更微妙的复制形式也是可能的,正如我下面讨论的,这最终渗入生成式AI复制其训练数据中内容“风格”的设置。
虽然传统ML已经开始开发解释训练模型决策或预测的技术,但它们并不总是转移到生成式AI,部分原因是当前生成模型有时产生根本无法解释的内容(如不存在的科学引用,我很快会讨论)。
负责任生成式AI的特殊挑战
因此,负责任AI的通常担忧对生成式AI变得更加困难。但生成式AI也引发了对于更狭窄的预测模型根本不存在的挑战。让我们考虑其中一些。
毒性。 生成式AI的一个主要关注点是生成冒犯性、令人不安或其他不适当内容(无论是文本、图像还是其他模态)的可能性。再次,甚至很难定义和界定问题。确定什么构成毒性内容所涉及的主观性是一个额外的挑战,限制毒性内容和审查制度之间的界限可能模糊且依赖于背景和文化。如果被认为是冒犯性的引用在上下文外被清楚地标记为引用,是否应该被抑制?可能对某些用户冒犯但清楚地标记为观点的意见呢?技术挑战包括可能以非常 subtle 或间接方式措辞的冒犯性内容,而不使用明显煽动性语言。
幻觉。 考虑到LLMs采用的下一词分布采样,在更客观或事实用例中,LLMs容易受到有时称为幻觉的影响——听起来合理但可验证不正确的主张或声称,这也许并不令人惊讶。例如,当前LLMs的一个常见现象是创建不存在的科学引用。如果这些LLMs之一被提示请求“告诉我一些Michael Kearns的论文”,它实际上不是在搜索合法引用,而是从与该作者相关的词分布中生成。结果将是机器学习领域中现实的标题和主题,但不是真实文章,并且它们可能包括合理的合著者但不是实际的。
类似地,金融新闻故事的提示导致不是搜索(比如)《华尔街日报》文章,而是LLM使用金融词典制造的新闻文章。注意,在我们的童话生成场景中,这种创造力是无害甚至可取的。但当前LLMs没有让用户区分“创造力开启”和“创造力关闭”用例的杠杆。
知识产权。 早期LLMs的一个问题是它们倾向于偶尔产生文本或代码段落,这些是其训练数据部分的逐字重复,导致隐私和其他担忧。但即使在这方面改进也没有防止训练内容的复制,这些复制更加模糊和微妙。考虑前述多模态生成模型的提示“以安迪·沃霍尔的风格创作一幅滑板猫的画”。如果模型能够以令人信服但仍原创的方式这样做,因为它是在实际沃霍尔图像上训练的,对此类模仿的反对可能出现。
剽窃和作弊。 生成式AI的创造能力引起担忧,它将被用于写大学论文、工作申请的写作样本,以及其他形式的作弊或非法复制。关于这个主题的辩论正在大学和许多其他机构进行,态度差异很大。一些人赞成在内容被评分或评估的设置中明确禁止任何生成式AI的使用,而其他人认为教育实践必须适应甚至拥抱新技术。但验证给定内容由人撰写的底层挑战可能在许多背景下引起担忧。
工作性质的破坏。 生成式AI能够创建引人入胜的文本和图像、在标准化测试中表现良好、就给定主题撰写整篇文章、并成功总结或改进提供文章的语法的熟练程度,引起了一些焦虑,即某些职业可能被该技术取代或严重破坏。虽然这可能为时过早,但生成式AI似乎确实将对工作的许多方面产生变革性影响,允许许多以前超出自动化的任务委托给机器。
我们能做什么?
上面列出的挑战可能看起来令人生畏,部分原因是与前几代AI相比,它们是多么不熟悉。但随着技术人员和社会更多地了解生成式AI及其用途和局限性,新的科学和新政策已经在创建以应对这些挑战。
对于毒性和公平性,仔细策划训练数据可以提供一些改进。毕竟,如果数据不包含任何冒犯性或偏见词或短语,LLM根本就不能生成它们。但这种方法要求我们提前识别那些冒犯性短语,并确定绝对没有我们希望它们在输出中的背景。特定用例测试也可以帮助解决公平性问题——例如,在生成式AI用于高风险领域如消费者贷款之前,可以为该特定应用测试模型的公平性,就像我们可能对更狭窄的预测模型做的那样。
对于不那么有针对性的毒性概念,一种自然的方法是训练我们可以称为护栏模型,检测并过滤掉训练数据、输入提示和生成输出中不需要的内容。此类模型需要人工注释的训练数据,其中识别了不同类型和程度的毒性或偏见,模型可以从中概括。通常,控制生成模型的输出比策划训练数据和提示更容易,给定我们打算解决的任务的极端通用性。
对于产生高保真内容无幻觉的挑战,重要的第一步是教育用户生成式AI实际如何工作,因此没有期望产生的引用或新闻式故事总是真实或事实正确。确实,一些当前LLMs,当 pressed 无法引用实际引用时,会告诉用户它们只是语言模型,不与外部来源验证其内容。此类免责声明应该更频繁和清晰。幻觉引用的具体情况可以通过用独立的、验证的引用数据库和类似来源增强LLMs来减轻,使用检索增强生成等方法。另一个新生但有趣的方法是开发将生成输出归因于特定训练数据的方法,允许用户评估这些来源的有效性。这也可能有助于可解释性。
围绕知识产权的担忧可能随着时间的推移通过技术、政策和法律机制的混合来解决。在短期内,科学开始围绕各种模型吐出概念出现,其中受保护内容或其對生成输出的影响减少或移除。一项可能最终证明相关的技术是差分隐私,其中模型以确保任何特定训练数据对模型随后产生的输出具有可忽略影响的方式训练。
另一种方法是所谓的分片方法,将训练数据分成更小的部分,在其上训练单独的子模型;然后子模型组合形成整体模型。为了撤销任何特定数据项对整体模型的影响,我们只需要将其从其分片中移除并重新训练该子模型,而不是重新训练整个模型(这对于生成式AI将足够昂贵以至于禁止)。
最后,我们可以考虑过滤或阻止方法,其中在呈现给用户之前,生成内容与训练数据中或其他地方的受保护内容明确比较,如果太相似则抑制(或替换)。限制任何特定内容在训练数据中出现的次数也证明有助于减少逐字输出。
一些有趣的方法来阻止使用生成式AI作弊已经在开发中。一种是简单地训练一个模型来检测给定(比如)文本是由人还是生成模型产生的。一个潜在缺点是这在检测模型和生成式AI之间创造了军备竞赛,并且由于生成式AI的目的是产生可能由人产生的高质量内容,不清楚检测方法是否会长期成功。
一个有趣的替代方案是水印或指纹方法,将由生成模型开发者自己实施。例如,由于在每个步骤LLMs从给定到目前为止文本的下一个词分布中抽取,我们可以将候选词分成“红”和“绿”列表,每个大约50%概率;然后我们可以让LLM只从绿列表抽取。由于绿列表上的词不为用户所知,人类产生一个10词句子也只从绿列表抽取的可能性是½的10次方,仅约0.0009。通过这种方式,我们可以将所有绿内容视为提供LLM生成的虚拟证明。注意LLM开发者需要提供此类证明或证书作为其服务产品的一部分。
对我们所知的工作的破坏没有任何明显的技术防御,并且关于事情将如何解决的意见差异很大。显然,生成式AI可能是在许多专业设置中的有效生产力工具,这将至少改变当前人和机器之间的劳动力分工。该技术也可能向更广泛的社区开放现有职业(最近一个文化特定但不完全 ludicrous 的社交媒体俏皮话是“英语是新的编程语言”,点头LLM代码生成能力)甚至创造新形式的就业,如提示工程师(一个有自己的维基百科条目的主题,就在今年二月创建)。
但也许对生成式AI担忧的最大防御可能来自最终用例的专业化。现在,生成式AI被当作一个迷人的、无限制的游乐场,其中我们的期望和目标不明确。正如我们讨论的,这种无限制性和大量可能用途是我概述的负责任AI挑战的主要来源。
但很快更多应用和专注的用途将出现,如我之前建议的一些。例如,考虑使用LLM作为虚拟焦点小组——创建描述假设个体及其人口统计属性(年龄、性别、职业、地点等)的提示,然后问LLM他们可能更喜欢两种描述产品中的哪一种。
在这个应用中,我们可能更少担心审查内容,更多担心移除任何甚至远程毒性输出。我们可能选择不消除性别和某些产品亲和力之间的相关性以服务于公平性,因为此类相关性对营销人员有价值。关键是,我们对生成式AI的目标越具体,就越容易做出明智的上下文相关选择;当我们的期望模糊时,我们的选择变得更加令人担忧和困难。
最后,我们注意到最终用户教育和培训将在生成式AI的生产性和安全使用中发挥关键作用。随着生成式AI的潜在用途和危害变得更好和更广泛理解,用户将以他们自己的常识增强我上面概述的一些防御。
结论
生成式AI既激发了合理的热情,也激发了合理的恐惧。我试图部分调查担忧的 landscape,并提出解决它们的前瞻性方法。应该强调的是,在生成时代解决负责任AI风险将是一个迭代过程:不会有“一劳永逸”的“做对”。这个 landscape 肯定会转变,随着技术和我们对其态度的变化;唯一不变的是平衡热情与对担忧的实际和有效检查的必要性。