开发他加禄语命名实体识别数据集
摘要
本研究提出了一个针对他加禄语的命名实体识别(NER)数据集的开发工作。该语料库有助于填补当前菲律宾语言资源匮乏的空白,其中NER资源尤为稀缺。文本数据来源于包含新闻报道的预训练语料库,并由母语者通过迭代方式进行标注。最终生成的数据集包含约7.8k个文档,涵盖三种实体类型:人物、组织和地点。通过科恩卡帕系数测量的标注者间一致性为0.81。此外,还对监督学习和迁移学习设置下的最先进方法进行了广泛实证评估。最后,公开发布了数据和处理代码,以推动他加禄语自然语言处理的未来研究工作。
发表信息
本研究成果将于2023年IJCNLP-AACL会议的首届东南亚语言处理研讨会中发表。
学科分类
计算与语言(cs.CL)
引用信息
arXiv:2311.07161 [cs.CL]
DOI: 10.48550/arXiv.2311.07161
提交历史
- 提交日期:2023年11月13日星期一 08:56:47 UTC
- 提交作者:Lester James Miranda
- 文档版本:v1
- 文件大小:252 KB
资源链接
- PDF文档:查看论文PDF
- TeX源码:提供其他格式下载
- 许可协议:遵循标准学术许可
相关工具与资源
- 代码与数据:通过alphaXiv、CatalyzeX、DagsHub等平台获取关联代码
- 学术工具:支持BibTeX引用导出、NASA ADS及Google学术检索
- 实验平台:集成Hugging Face Spaces、Replicate等演示环境
实验方法
- 语料采集:从新闻预训练语料中提取文本
- 标注流程:由母语者采用多轮迭代标注确保质量
- 实体分类:明确划分人物、组织、地点三类实体
- 一致性验证:科恩卡帕系数达0.81,显示高标注一致性
- 模型评估:对比监督学习与迁移学习在多场景下的性能表现
学术贡献
- 填补菲律宾语言NER资源空白
- 提供高质量标注数据集与开源处理工具
- 为低资源语言NLP研究提供标准化评估基准