荷兰COVID-19新闻发布会中的言语行为分析
摘要
本研究创建了一个包含所有荷兰COVID-19新闻发布会的开源语料库,采用John Searle的言语行为分类法对句子进行标注。语料库包含2020年3月6日至2021年4月20日期间举行的58场新闻发布会,共有9441个手工标注的句子。言语行为标注具有一致性,Krippendorff’s alpha值为0.71。语料库使用方便,富含元数据,包括词汇、句法、话语(发言人、问题或回答)特征以及现有法规类型信息。
技术方法
数据收集与处理
新闻发布会文本从某机构官方网站获取,使用NLTK进行句子分割,并利用SpaCy进行词元化、词性标注和组块分析。每个句子都添加了元数据:在新闻发布会中的排名、日期、发言人身份(部长或记者)、是否属于开场陈述或问答环节。
标注流程
使用Prodigy标注工具,采用Searle的言语行为分类法:断言类、指令类(分为温和和强烈)、承诺类、表达类和宣告类。两名标注员共标注了9441个句子,标注过程耗时约50小时。
机器学习应用
使用RoBERTa模型进行言语行为分类实验,在单标签分类任务中达到0.73的准确度和0.74的平均倒数排名。实验采用时序排序,使用最后20%作为测试集,训练集从20%到80%逐步增加。
研究成果
语料库包含58场新闻发布会,5548个段落,29409个句子,528703个词符,15431个唯一单词和11083个唯一词元。包含2678个问答对,平均问题长度为2个句子,回答长度为7个句子。
言语行为分布显示:断言类占主导(68%),指令类(温和和强烈)合计为第二大类,承诺类和表达类分别占第三和第四位,宣告类仅占3%。
技术贡献
- 提供了结构良好的荷兰疫情新闻发布会语料库,包含丰富的元数据和高质量的言语行为标注
- 证明了言语行为使用与疫情严重程度、措施类型和发言人角色相关
- 展示了机器学习在言语行为分类中的应用潜力,为自动标注提供了可行方案
所有数据和处理脚本永久保存在荷兰科学数据存储库DANS中(https://doi.org/10.17026/dans-2af-rwmr)。