符号语义学在自然语言处理中的回归
某中心学者Heng Ji表示,深度学习可以通过融入少量语言学直觉而获益。
当某中心学者、伊利诺伊大学计算机科学教授Heng Ji大约15年前开始参加计算语言学协会北美分会年会时,该会议仅吸引了约700人。“今年,我们可能会达到约3000人,”担任信息抽取研究领域高级领域主席的Ji说,“当我们还是学生时,每个领域通常只需要一位主席。今年,信息抽取领域有三位高级领域主席,我们之下还有18位领域主席。这个领域正在疯狂增长。”
这种增长当然是深度学习革命以及自然语言处理统计方法在近期人工智能研究中发挥作用的结果。然而,Ji对会议的革命前时期怀有美好的回忆。“在方法论上,实际上比以前更加同质化,多样性减少,”她说,“机器学习方法是一把锤子,现在我们有很多钉子。过去,我们没有很好的锤子,所以我们忙于发明其他工具。”
作为高级领域主席,Ji对她研究主题——信息抽取——的论文提交有很好的概览,在最近的工作中,她看到了已被忽视的符号语义学思想的复兴。“深度神经网络的整个理念建立在分布式语义学基础上,这意味着你不需要规则或语言学直觉,因为你可以简单地统计单词,对吧?”她说,“所以‘苹果’和‘橙子’相似,仅仅因为它们出现在相似的上下文中。如果我给你十亿份文档,你可以简单地统计数据。”
分布式语义学是大多数语言嵌入的基础,即将单词和单词串表示为多维空间中的点,使得点之间的空间关系编码文本之间的语义关系。基于预训练的transformer嵌入网络(如BERT)是最近自然语言处理大多数进展的基础。它们通常从单词与其他单词的共现推断语义关系。
符号语义学
相比之下,符号语义学利用符号之间的逻辑关系,编码为规则(基于语言学直觉)或句子内的句法关系。Ji表示,符号语义学已经开始以四种主要方式回归信息抽取。
“第一个想法是我们直接改变输入数据,”她说,“当我说‘John Smith’时,我可能指这个John Smith或那个John Smith。当我说‘苹果’时,我可能指公司或水果。这个想法是,在学习嵌入之前尝试进行消歧。因此,我们不说‘苹果’,而是说‘苹果公司’来表示它是一家公司。我们改变输入数据,使其更具知识意识。
“第二个想法是我们保持输入数据不变,但尝试将自然语言转换为某种结构。例如,我们可以使用语义解析将输入句子转换为图结构。然后我们可以使用传统嵌入初始化嵌入,但在图的相邻节点之间传播嵌入表示。
“例如,‘succeed’可以表示在某事之后跟随,或者表示成功。如果我们只统计共现,很难区分这两种意义。但如果我们知道动词是否有宾语,我们就可以区分这些含义。如果我们能提前教模型‘这是结构’,‘这是宾语’,那么我们就能更好地表示它。
“第三个想法是,我们将使用分布式语义学发现一些新类型或新聚类,然后使用符号语义学为它们命名。许多自然语言处理任务,特别是信息抽取,的一个大问题是,每次我们定义需要本体的东西——这些是我希望您从新闻文章中提取的10种事件类型——我们只注释这10种类型的数据。然后,当我们想添加10种新的事件类型时,我们用旧训练数据训练的旧系统变得无用,因为深度学习模型是针对那10种类型定制的。
“这里的想法是,让我们忘记分类范式。让我们尝试使用嵌入发现聚类,对吧?所以如果所有这些单词看起来相似,我们把它们放在一个聚类中。如果我们能查看这个聚类的代表性含义,我们可以使用符号语义学来命名。
“然后第四种方法是,我们让嵌入方法在低层完成它们的工作,然后使用符号语义学资源进行最终解码。我们使用一些背景知识或常识知识作为全局约束,从分布式语义学中挑选候选。
“我认为这是一个非常有前途的方向,因为我们在过去可能二十年、三十年准备的所有资源不会被丢弃。我们仍然可以利用它们。另一方面,它也使所有结果更具可解释性。”
有关某中心参与今年NAACL的更多信息——包括出版物、委员会成员资格以及研讨会和教程的参与——请访问我们的NAACL 2021会议页面。