背景:他加禄语NER数据稀缺
他加禄语作为菲律宾官方语言虽有7600万使用者,但仍是低资源语言。现有唯一实体识别数据集WikiANN存在明显缺陷:
- 实体标注错误(如将"脚趾"标记为机构)
- 文本缺乏完整句子上下文
- 基于英语知识库的银级标注质量有限
方法:构建黄金标准数据集
-
数据准备:
- 采用TLUnified新闻语料(2009-2020年菲律宾主流媒体内容)
- 使用WikiANN预训练模型进行初始标注
-
标注流程:
- 通过Prodigy工具人工修正标注
- 定义三类实体标签:
- PER(人物)
- ORG(组织)
- LOC(地点)
- 最终生成7,000+文档的黄金标准数据集
实验设计
词向量方案对比
配置 | F1得分 |
---|---|
基线模型 | 0.87 |
+fastText词向量 | 0.88 |
+预训练字符目标 | 0.89 |
语言模型方案
- 单语模型:基于TLUnified训练的RoBERTa-tagalog
- 多语模型:XLM-RoBERTa(支持100种语言)
关键发现
-
词向量优化:
- floret词向量在200k维度下性能媲美传统fastText
- 字符级预训练目标更适合他加禄语粘着特性
-
模型表现:
- RoBERTa-tagalog-large达到最佳F1 0.91
- 词向量方案(F1 0.86)仍具实用价值
未来方向
- 扩展标注团队以提升标注一致性
- 集成依存句法分析等更多NLP组件
- 探索跨语言迁移学习技术
特别说明:当前流水线尚不推荐生产环境使用,需进一步优化标注质量与模型超参数。完整实验代码已开源。