创建无词典的自定义事件数据：技巧集锦

事件数据是从文本中自动提取的"谁对谁做了什么"的结构化记录，是国际政治学者重要的数据来源。开发新事件数据集的高成本，特别是依赖手工构建词典的自动化系统，意味着大多数研究人员使用现有大型数据集（如ICEWS），而非针对特定研究问题优化定制事件数据集。

本文描述了一套高效生产自定义事件数据的"技巧集锦"，利用自然语言处理（NLP）的最新进展，使研究人员能够快速生成定制事件数据集。论文介绍了以下技术：

这些技术产生了旨在替代ICEWS的新POLECAT全球事件数据集，同时展示了学者如何快速生成较小的自定义事件数据集。发布了实现新技术的示例代码和模型。

主题分类: 计算与语言（cs.CL）

无词典定制事件数据生成技巧