机器写作与可信文本生成技术探索

本文探讨了如何通过AI技术实现机器流畅写作,包括文本生成控制策略、消除性别偏见的方法、作者隐私保护技术,以及基于上下文的双关语生成模型,旨在提升人机交互体验与内容可靠性。

“我希望机器能像人类一样流畅写作” - 某中心科学研究

某中心机器学习研究员Jiao Sun致力于研究控制文本生成的策略。

作者:Mariana Lenharo
2022年12月13日

如果人工智能能帮助有抱负的作者写小说会怎样?或者指导人们提高写作质量?机器能学会讲笑话吗?受这些问题的启发,计算机科学家Jiao Sun在南加州大学(USC)攻读博士期间一直在探索AI生成文本的潜力。在去年春季在某中心Alexa AI完成四个月的实习后,她如今作为2022-23学年的某中心机器学习研究员开始了新的旅程,希望继续开发文本生成模型以增强人类与AI的互动。

尽管Sun对自然语言生成的潜力充满热情,但她认为开发提高人类对机器生成内容控制能力的工具同样重要。她对文本生成模型日益流行持谨慎乐观态度。“近年来,看到文本生成领域出现越来越多优秀模型,我感到非常兴奋,“她说,“这有助于推动文本生成领域的创新,但也可能使一些研究甚至研究方向过时。就个人而言,我的研究理念是开展与模型选择无关且本身具有创造性的研究。”

她的研究目标之一是提高内容的质量、公平性和可靠性,以实现她所谓的"可信文本生成”。例如,她和同事最近调查了人类和机器编写的贺卡信息中存在的性别刻板印象。这项研究促成了一款写作辅助工具的开发,用于对抗这些偏见,并获得了2022年CHI人机交互国际会议最佳论文荣誉提名。

“这非常重要,因为我们可以看到机器有潜力生成很棒的内容,但我们不希望它们随意创造任何东西,“Sun说。“我们要确保机器生成的内容公平且基于知识,并希望人类能够控制输出。”

保护作者隐私

Sun的研究仍处于早期阶段,但她希望探索的一个领域是利用AI确保作者隐私,她认为这是可信文本生成的另一个方面。她指出,自然语言处理技术可用于根据作者的写作风格推断文章和文档的作者身份,特别是当作者有多篇文章在线发表时。但如果作者因某些原因希望保持匿名呢?

“我们正在思考如何重写文本,在保持语义的同时保护作者身份,“Sun说。目标是开发AI模型,通过重新表述内容来移除可能泄露作者身份的风格特征。

在该项目中,Sun得到某中心Alexa AI应用科学家Qian Hu的指导,定期讨论研究进展。“这不仅对我的职业生涯有帮助,与另一个聪明人保持联系也有助于我将研究引导到正确的方向,“她说。

某中心机器学习奖学金项目由南加州大学与某中心联合成立的安全可信机器学习中心每年向博士生提供,该中心专注于开发机器学习隐私、安全和可信度的新方法。除Sun外,Sina Shaham和Yunhao Ge也是本学年的机器学习研究员。

“寿司对蜜蜂说了什么?”

在去年春季在某中心实习期间,Sun与某中心科学家合作完成了两篇被2022年自然语言处理实证方法会议(EMNLP)接受的论文。两项研究都探索了向机器解释幽默的挑战性任务。Sun指出,我们常常认为理解简单双关语所需的知识是理所当然的。但想象一下向非母语人士或小孩解释文字游戏。

“要让机器理解笑话,它们需要从庞大的知识库中学习,“她说。Sun和合著者首先开发了一个双关语关键词和解释的数据集,恰当地命名为ExPUNations。她在一个现有的双关语数据集上工作,要求标注者评估给定文本是否意在开玩笑,他们认为有多有趣,以及有趣之处在哪里。

以笑话为例:“寿司对蜜蜂说了什么?‘芥末(Wasabi)’。““如果我是标注者,我会说这很有趣,因为wasabi听起来像’What’s up, bee?’(蜜蜂,你好吗?)。这就是有趣之处,“Sun说。标注者还被要求选择双关语的关键词,本例中为"寿司”、“蜜蜂"和"芥末”。

“我们不仅收集了对双关语本身的解释,还收集了人类进行推理所需的基本事实,“Sun说。结果是一个增强的数据集,可用于训练模型解释双关语,并根据关键词生成新的双关语。

Sun作为某中心实习生开发的第二项工作旨在根据给定上下文生成双关语。她和合著者解释说,以前的 pun-generation 研究通常选择一个给定的双关语词作为起点来生成适当的笑话。而在她的研究中,起点是上下文,即笑话发生的给定场景。初始目标是识别适合该上下文的双关语词,然后生成适合该场景的双关语。

“在我们获得双关语词后,我们将上下文和双关语词结合起来,生成一个非常有趣的双关语,“Sun说。人工评估显示,系统检索到的双关语词中有69%可用于生成情境双关语。对于合理的上下文和双关语词对,系统在31%的情况下能够成功生成双关语。

得益于某中心的旅行资助,Sun得以在阿布扎比的EMNLP会议上亲自展示她的研究。“这项资助让我有机会参加整个博士生涯中的第一次线下会议,“她说。“疫情已经持续了三年,所以我非常感激。我即将毕业,这是一个结识同行的好机会。”

Sun认为这类研究可以增强人们与AI互动时的参与度。“如果你在与Alexa交谈时,它能理解上下文并讲一个适合该上下文的笑话,那不是很酷吗?“她设想道。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计