创建无词典的自定义事件数据:技巧集锦
事件数据是从文本中自动提取的"谁对谁做了什么"的结构化记录,是国际政治学者重要的数据来源。开发新事件数据集的高成本,特别是依赖手工构建词典的自动化系统,意味着大多数研究人员使用现有大型数据集(如ICEWS),而非针对特定研究问题优化定制事件数据集。
本文描述了一套高效生产自定义事件数据的"技巧集锦",利用自然语言处理(NLP)的最新进展,使研究人员能够快速生成定制事件数据集。论文介绍了以下技术:
- 通过主动学习训练事件类别分类器
- 使用大语言模型和标准机器学习分类器识别文本中的行动者和动作接收者
- 采用NLP预训练的"问答"模型
- 将行动者指代解析至其维基百科文章并进行分类
这些技术产生了旨在替代ICEWS的新POLECAT全球事件数据集,同时展示了学者如何快速生成较小的自定义事件数据集。发布了实现新技术的示例代码和模型。
主题分类: 计算与语言(cs.CL)