无词典定制事件数据生成技巧

本文介绍利用自然语言处理技术自动生成定制事件数据的方法,包括主动学习训练事件分类器、大语言模型识别文本中的行动者和动作对象,以及通过维基百科链接实现实体解析的技术方案。

创建无词典的自定义事件数据:技巧集锦

事件数据是从文本中自动提取的"谁对谁做了什么"的结构化记录,是国际政治学者重要的数据来源。开发新事件数据集的高成本,特别是依赖手工构建词典的自动化系统,意味着大多数研究人员使用现有大型数据集(如ICEWS),而非针对特定研究问题优化定制事件数据集。

本文描述了一套高效生产自定义事件数据的"技巧集锦",利用自然语言处理(NLP)的最新进展,使研究人员能够快速生成定制事件数据集。论文介绍了以下技术:

  • 通过主动学习训练事件类别分类器
  • 使用大语言模型和标准机器学习分类器识别文本中的行动者和动作接收者
  • 采用NLP预训练的"问答"模型
  • 将行动者指代解析至其维基百科文章并进行分类

这些技术产生了旨在替代ICEWS的新POLECAT全球事件数据集,同时展示了学者如何快速生成较小的自定义事件数据集。发布了实现新技术的示例代码和模型。

主题分类: 计算与语言(cs.CL)

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计