近年来,生成式AI公司大量使用未经授权的受版权保护材料来训练其大语言模型。这一做法引发了法律纠纷,法院对于使用此类内容训练AI是否构成合理使用存在分歧……
根据近期行业报告,“核心”创意产业(包括书籍、娱乐软件、期刊、电影、录音音乐、电视和视频游戏)在2021年为美国GDP贡献了1.8万亿美元,占美国经济近8%。因此,生成式AI公司使用这些行业中未经授权的受版权材料训练模型已成为重大议题。行业领袖和学术研究指出,生成式AI工具已在经济其他重要领域取代工人,不难想象它可能对创意艺术家产生同样影响。这解释了为什么这些行业的版权持有人已在联邦法院对生成式AI公司提起了40多起诉讼,指控其使用未经授权的受版权材料训练模型。
两周前,加州北区的两个法院对这些案件作出了首批两项裁决——两项裁决均未对版权持有人特别有利。
在第一个案件Bartz诉Anthropic中(涉及三位作者对Anthropic的诉讼),William Alsup法官裁定使用受版权保护材料训练生成式AI模型属于合理使用,因此无需补偿版权持有人。Alsup法官写道:“就像任何渴望成为作家的读者一样,Anthropic的大语言模型训练作品不是为了快速复制或取代它们,而是为了转向创作不同的内容。”
在第二个案件Kadrey诉Meta中(涉及13位作者对Meta的诉讼),Vincent Chhabria法官持不同立场,认为未经授权使用受版权材料进行训练可能不构成合理使用,因为大语言模型生成的内容与人类创作有根本区别。Chhabria法官推理道:“用书籍教孩子写作与用书籍创建产品——让单个人能以极短时间和极少创造力生成无数竞争性作品——完全不同。”
作为数字化转型研究的专家,我们对这一问题进行了深入思考。例如,我们最近参加了美国版权局召集的10位经济学家圆桌会议,研究生成式AI对版权政策的影响。我们认识到这两项裁决远非这一主题的最终结论;两者无疑将上诉至第九巡回法院,随后可能至最高法院。但同时,我们认为这些裁决已提供了许多关于生成式AI对商业影响的教训,这些教训对创意产业和生成式AI公司的领导者都将有用。
对版权持有人的教训
在当前环境下,作为版权持有人,您可以采取以下步骤保护业务:
认识到可以从训练语料库中移除受版权材料。
人们容易认为战斗已经失败:一旦受版权内容进入大语言模型的训练语料库,就无法移除,对吗?实际上,错误。当大语言模型发布主要新版本时(例如从ChatGPT 3升级到ChatGPT 4),它们通常会在完整训练语料库上重新训练新模型。此时,大语言模型有机会从训练语料库中移除版权持有人的受版权材料——或者版权持有人可以获得法院指令要求这样做。
对未经许可使用您受版权材料的生成式AI公司执行权利。
如果您认为您的内容被用于训练大语言模型且没有适当许可,现在可能是加入40多名原告行列的好时机,通过诉讼保护合法权利。鉴于近期一些法院裁决提供了未来原告如何成功论证案件的框架:说服法院生成式AI模型可能被用于摧毁那些被要求免费训练这些模型的艺术家的生计。这是一个高门槛,但至少提供了方向。
在适当情况下进行许可。
超过70家版权持有人——包括HarperCollins、环球音乐、Reddit、Shutterstock和《华尔街日报》——已将其内容许可给生成式AI公司用于训练。如果您尚未许可您的内容,现在可能是考虑追求许可协议的时候,可能通过创建针对特定模型训练的精选数据集,从而吸引AI开发者。签署此类许可的挑战在于,鉴于法院对合理使用的倾向,您处于谈判劣势。但您的优势是及时性和准确性:生成式AI公司可能愿意支付许可费用,而不是等待这些案件在法院审理,并且他们可能愿意为干净、可靠和精选的数据集付费,而不是通过 indiscriminately 抓取网络获取的内容。
考虑将受版权内容从开放网络移除。
许多知识产权企业以推动其商业模式的方式公开提供部分内容。在整个知识产权领域,存在内容“免费”提供以支持广告商业模式的情况,例如在YouTube上可以找到的众多广告支持的电影剪辑。一些公司还采用“免费增值到付费”模式,消费者获得一些免费内容但需要支付更便捷渠道或更完整内容集的费用。想想一些网站每月提供5到10篇免费文章然后要求订阅的策略。这些策略在生成式AI之前可能有意义,但现在规则已变,重新权衡在开放网络提供内容的益处与未经同意使用受版权材料训练大语言模型的危害是合理的。鉴于一些最大的许可交易是针对付费墙后保护的内容,这使得生成式AI公司难以抓取,这一点尤其重要。
保护开放网络上的受版权内容。
谈到网络抓取,版权持有人应寻求保护其在开放网络上保留的任何知识产权。有几种途径可以追求,尽管没有一种是完美的。版权持有人可以使用名为robots.txt的文件告诉AI爬虫不应抓取网站内容。这仅在大语言模型选择尊重网站的robots.txt文件时有效,但这是一个开始。网络托管公司也有方法阻止大语言模型抓取工具,或为寻求访问您内容子集的AI代理建立货币化政策。最后,有新兴工具如Glaze或Nightshade,可以保护公开可用的图像知识产权不被用于生成式AI训练。
对生成式AI公司的教训
如果您是生成式AI公司的领导者,鉴于法院的裁决方式,您可能认为应该继续当前做法。但这可能是一个错误。以下是法院解决问题时您应该思考和做的事情。
考虑财务风险。
尽管Alsup法官发现使用受版权数据训练Anthropic的大语言模型是合理使用,但他提出了重要警告:受版权数据不能通过盗版获得。具体来说,Alsup写道:“对 otherwise available copies 的盗版本质上是不可挽回的侵权,即使盗版副本立即用于变革性使用。”这意味着使用盗版内容携带重大财务风险。根据美国法律(17 U.S.C. § 504),版权持有人可获得每部侵权作品最高30,000美元的法定赔偿,如果法院发现侵权是故意的,则最高150,000美元。Alsup发现Anthropic在其训练数据中使用了700万本盗版书籍,并命令公司就“用于创建Anthropic核心库的盗版副本及由此产生的损害,实际或法定(包括故意)”接受审判。700万本书乘以每本书150,000美元的潜在损害是一个巨大的潜在财务风险——确切地说是1.05万亿美元。这不仅仅是Anthropic的问题。Kadrey诉Meta案的证据发现Meta使用了至少82 TB的盗版书籍数据训练其模型。其他诉讼,如Tremblay诉OpenAI和O’Nan诉Databricks,声称使用类似的盗版“影子图书馆”进行训练。
签署许可。
鉴于这些财务风险,现在可能是考虑与版权持有人签署许可的合适时机——特别是因为近期法院案件可能使版权持有人在短期内更愿意出售。
生成选择退出工具,允许版权持有人从训练数据集中过滤或移除其内容。
面对版权持有人的诉讼,YouTube和Facebook等公司开发了工具,使这些版权持有人能够从其平台移除内容。现在可能是生成式AI公司开发类似工具的完美时机。
重新考虑获取更多未经许可数据的价值与法律风险。
AI研究组织Eleuther.ai最近发布了一个8 TB的数据集Common Pile v0.1,声称其完全由开源或许可内容组成。该公司还声称,当使用此模型训练其大语言模型时,这些模型的表现与使用未经许可受版权数据的模型一样好。在该公司开发者的博客文章中,他们写道其研究表明“未经许可文本驱动性能的常见观念是不合理的。”我们无法独立验证这些声称,但鉴于使用未经许可(且经常是盗版的)受版权内容产生的潜在法律风险,生成式AI公司质疑使用更多未经许可受版权材料的边际效益是否 justify 额外的法律和财务风险可能是一个好主意。
……
生成式AI有潜力以多种方式 benefit 行业和社会。但实现这一潜力需要技术公司与创意产业之间更 robust 和透明的合作伙伴关系。在我们当前的道路上,我们 risk killing the goose——或者在这种情况下,作者、音乐家、编码者和电影制作人——他们产出了对生成式AI输出现在和未来价值至关重要的金蛋。