文学文本空间实体识别的BERT模型应用

本研究利用手动标注数据和BERT语言模型,自动识别瑞士历史小说中的非命名空间实体。通过Prodigy辅助标注和深度学习微调,在1840-1950年德语叙事文本上取得显著效果,为文学空间分析提供新方法。

识别文学文本中的非命名空间实体:新型空间实体分类器

(短文) 作者:Daniel Kababgi, Giulia Grisot, Federico Pennino and Berenike Herrmann 会议环节:2A:文学 论文:下载PDF

摘要

预测文学中的空间表征是一项具有挑战性的任务,需要先进的机器学习方法和手动标注。本文提出一项研究,利用手动标注和BERT语言模型自动检测和识别瑞士历史小说语料库中的非命名空间实体。标注数据包含1840年至1950年期间的德语叙事文本,用于训练机器学习模型并微调专门针对文学德语的深度学习模型。通过使用某标注工具辅助的标注过程,能够从未标注数据中选择信息实例来迭代改进模型预测。评估指标(F1分数)证明了模型在语料库中预测各类空间实体的能力。这种新方法使研究人员能够探索文学文本中的空间表征,为数字人文和文学研究做出贡献。虽然研究显示出有希望的结果,但存在标注数据代表性、手动标注偏差和领域特定语言等挑战。通过解决这些限制并讨论研究发现的意义,为文学情感和空间分析的未来研究奠定基础。研究发现不仅有助于理解文学叙事,还展示了自动化空间分析在历史和文学研究中的潜力。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计