语料级事件问答评估：涵盖2002年古吉拉特邦暴力事件的印度警察事件语料库

自动化事件抽取在社会科学应用中通常需要语料级评估：例如，跨元数据聚合文本预测和无偏的召回率估计。本研究将语料级评估要求与真实世界的社会科学场景相结合，引入了印度警察事件语料库——包含2002年3月古吉拉特邦事件相关的1,257篇《印度时报》英文文章中的所有21,391个句子。

经过培训的标注员阅读并标注每份文档中提及的警察活动事件，从而实现无偏的召回率评估。与其他具有结构化事件表示的数据集不同，本研究通过提出自然问题收集标注，并评估现成模型在三个不同任务中的表现：句子分类、文档排序和目标事件的时间聚合。

研究展示了基于零样本BERT模型的基线结果，这些模型在自然语言推理和段落检索任务上进行了微调。新颖的语料级评估和标注方法可为未来创建类似社会科学导向资源提供指导。