他加禄语命名实体识别数据集构建技术解析

本文详细介绍了他加禄语命名实体识别数据集的开发过程,包括语料收集、原生说话者标注流程、实体类型划分及科恩卡帕系数评估,并对比了监督学习与迁移学习的实验效果,最终公开数据集与处理代码以促进菲律宾语自然语言处理研究。

开发他加禄语命名实体识别数据集

摘要

本研究提出了一个针对他加禄语的命名实体识别(NER)数据集的开发工作。该语料库有助于填补当前菲律宾语言资源匮乏的空白,其中NER资源尤为稀缺。文本数据来源于包含新闻报道的预训练语料库,并由母语者通过迭代方式进行标注。最终生成的数据集包含约7.8k个文档,涵盖三种实体类型:人物、组织和地点。通过科恩卡帕系数测量的标注者间一致性为0.81。此外,还对监督学习和迁移学习设置下的最先进方法进行了广泛实证评估。最后,公开发布了数据和处理代码,以推动他加禄语自然语言处理的未来研究工作。

发表信息

本研究成果将于2023年IJCNLP-AACL会议的首届东南亚语言处理研讨会中发表。

学科分类

计算与语言(cs.CL)

引用信息

arXiv:2311.07161 [cs.CL]
DOI: 10.48550/arXiv.2311.07161

提交历史

  • 提交日期:2023年11月13日星期一 08:56:47 UTC
  • 提交作者:Lester James Miranda
  • 文档版本:v1
  • 文件大小:252 KB

资源链接

  • PDF文档查看论文PDF
  • TeX源码:提供其他格式下载
  • 许可协议:遵循标准学术许可

相关工具与资源

  • 代码与数据:通过alphaXiv、CatalyzeX、DagsHub等平台获取关联代码
  • 学术工具:支持BibTeX引用导出、NASA ADS及Google学术检索
  • 实验平台:集成Hugging Face Spaces、Replicate等演示环境

实验方法

  1. 语料采集:从新闻预训练语料中提取文本
  2. 标注流程:由母语者采用多轮迭代标注确保质量
  3. 实体分类:明确划分人物、组织、地点三类实体
  4. 一致性验证:科恩卡帕系数达0.81,显示高标注一致性
  5. 模型评估:对比监督学习与迁移学习在多场景下的性能表现

学术贡献

  • 填补菲律宾语言NER资源空白
  • 提供高质量标注数据集与开源处理工具
  • 为低资源语言NLP研究提供标准化评估基准
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计