“我希望机器能像人类一样流畅写作”——某机构科学研究
某机构机器学习研究员Jiao Sun致力于研究控制文本生成的策略。
2022年12月13日
如果人工智能能帮助有抱负的作者创作小说?或者指导人们提升写作质量?机器能否学会讲笑话?受这些问题启发,计算机科学家Jiao Sun在南加州大学攻读博士期间一直在探索AI生成文本的潜力。经过在Alexa AI为期四个月的实习后,她如今作为2022-23学年的某机构机器学习研究员开启新征程,希望继续开发能增强人与AI交互的文本生成模型。
可信文本生成的研究目标
尽管Sun对自然语言生成的潜力充满热情,但她认为开发能提升人类对机器创作内容控制能力的工具同样重要。她以审慎乐观的态度看待文本生成模型的流行趋势。
其中一个研究目标是提升生成内容的质量、公平性和可靠性,实现她所称的“可信文本生成”。例如,她与同事最近研究了人类和机器撰写的贺卡信息中存在的性别刻板印象。这项研究促使开发了一款写作辅助工具来对抗这些偏见。
“这非常重要,因为我们可以看到机器有潜力生成很棒的内容,但我们不希望它们随意创作。我们需要确保机器生成的内容是公平且基于知识的,同时人类能控制其输出。”
作者隐私保护技术
在研究员项目期间,Sun希望探索的另一个研究方向是利用AI确保作者隐私,这被视为可信文本生成的另一层面。她指出,自然语言处理技术可根据写作风格推断文章和文档的作者身份,特别是当作者在线上发表过多篇文章时。
研究团队正在探索“在保持文本语义的同时通过重写内容来保护作者身份”的技术方案,旨在开发能重新组织内容以消除风格特征的AI模型。
双关语生成技术突破
在实习期间,Sun与某机构科学家合作完成的两篇论文被自然语言处理实证方法会议接收。这两篇论文都探索了向机器解释幽默的挑战性任务。
第一项工作开发了名为ExPUNations的双关语关键词和解释数据集。研究人员在现有双关语数据集基础上,要求标注者评估文本是否为笑话、幽默程度及其笑点所在。最终构建出可用于训练模型解释双关语并根据关键词生成新双关语的增强数据集。
第二项工作致力于基于给定上下文生成双关语。与传统研究以特定双关词为起点不同,该研究以语境为出发点,先识别适合该语境的双关词,再生成符合场景的双关语。人工评估显示,系统检索的双关词中有69%可用于生成情境双关语,对于合理的语境-双关词组合,系统成功生成双关语的比例达到31%。
技术应用前景
这类研究有望增强人与AI交互过程中的参与度。研究人员设想:“如果你与语音助手对话时,它能理解语境并讲出合适的笑话,那该多么酷炫?”
这种基于上下文的幽默生成技术,展示了AI在理解复杂语言规则和创造性表达方面的重大进步,为未来人机自然交互开辟了新的技术路径。