“35%的单词难以理解”:基于维基百科垃圾翻译训练的AI成为少数民族语言的灾难
当肯尼斯·韦尔四年前接手格陵兰语版维基百科时,他的第一个措施很极端:删除几乎所有内容。在他看来,这是该项目存活的唯一机会。这位痴迷格陵兰的26岁德国人发现,这种只有约5.7万人使用的语言版维基百科只是个幻象。
在夏威夷这样的天堂也存在同样问题,诺亚·哈阿里利奥·所罗门指出,夏威夷语维基百科某些页面中约35%的单词难以理解。但这有其原因。
虚假翻译者:尽管拥有约1500篇该语言文章,但绝大多数是由不使用该语言的人通过机器翻译创建的。结果正如《MIT技术评论》所记载的,是一场灾难:包含基本语法错误、无意义单词甚至荒谬数据的文章,比如某个条目声称加拿大只有41名居民。
“这些句子毫无意义或包含明显错误,“韦尔感叹道,“AI翻译在格陵兰语上表现真的很差。”
基于预测:从谷歌翻译到ChatGPT的大型人工智能模型,通过分析从互联网提取的海量文本学习"说"新语言。对许多数字存在感低的少数民族语言而言,维基百科通常是最大(如果不是唯一)可用的语言数据来源。这正是语言大破坏的开始。
这一切始于善意的用户使用机器翻译工具在维基百科上创建少数民族语言文章。但他们显然没有考虑到,由于网络上资源匮乏,这些翻译器对这些语言的训练效果很差。
循环恶化:所有这些通过机器翻译生成的信息,也成为了未来AI模型将要使用的训练材料。这样,新AI模型从这些"垃圾"文本中学习,延续并放大了先前犯下的错误。
现在出现的新翻译工具基于其他AI的翻译生成,导致错误不断累积。最终我们面临的将是一场真正的灾难。
更深远的影响:从事四种非洲语言工作的志愿者向《MIT技术评论》估计,其维基百科版本中40%至60%的文章是未经修正的机器翻译。对因纽特语(加拿大土著语言)版本的审计显示,超过三分之二的页面包含以此方式生成的片段。
依赖性:早在2020年,据估计维基百科构成了非洲数百万人使用语言(如马达加斯加语、约鲁巴语和绍纳语)AI训练数据的一半以上。2022年,一个德国研究团队发现,对于27种低资源语言,维基百科是互联网上唯一容易获取的语言数据来源。
“这些模型基于原始数据,“开发濒危语言软件的计算机科学家凯文·斯坎内尔解释,“没有语法书。没有词典。除了输入的文本外什么都没有。”
劫持者:特罗姆瑟大学计算语言学家特隆德·特罗斯特鲁德多年来一直警告这一现象。他创造了"维基百科劫持者"一词来描述一类用户,他们要么出于天真,要么出于"帮助"的热情,用低质量内容淹没这些小语种版本。具体而言,他指出这些用户"武装着谷歌翻译”,并将其归类为主要问题。
以前这是不可想象的,因为我们只有一些双语词典,翻译最终需要很多时间。但通过"复制和粘贴"可以生成长篇内容。
工具提供:维基百科本身如今向用户提供名为"Content Translate"的工具,允许将文章从一种语言翻译成另一种语言,同时保留原始格式。然而,由于依赖外部引擎,错误开始浮现,不准确性很大。
发展到一定程度,英语维基百科在很大程度上停止显示使用此翻译工具生成的内容,除非先经过人工审核。全因为它们不符合要求的最低质量标准。但在较小的维基百科版本中,没有大量人工编辑来纠正AI翻译所犯的错误。
加拿大教授Yuet Man Lee承认使用ChatGPT和谷歌翻译创建因纽特语文章就是一个例子。在看到"大维基百科的傲慢"后他做出了这个决定,因为他发现英语内容很多,但少数民族语言却没有。他这样做是相信之后会有人来纠正,但现实是自那以后没有人碰过这些文章。
后果:在尼日利亚北部,阿卜杜勒卡迪尔·阿卜杜勒卡迪尔每天花三个小时编辑富拉语维基百科,这是一种牧民和农民使用的语言。他认为这是向偏远村庄传播农业知识的重要工具。但如果信息被翻译,显然可能对信任这些条目的农作物造成巨大损害。
他举了几个例子来说明。具体指出机器翻译混淆了富拉语中"收获"与"发烧"或"福祉"的单词。他还讲述最近不得不修正关于豇豆的文章,这是非洲的一种基本作物,因为它几乎难以理解。他估计富拉语中60%的文章是未经修正的机器翻译。
在该国另一端,伊博语编辑露西·伊瓦乌拉更为直率。“损害已经造成,“她一边检查包含伊博语字母表中甚至不存在的字母的新创建文章,一边断言。对她来说,编辑这些维基百科条目是一种文化斗争形式,因为她与这些条目产生认同。