斯洛伐克多语言问答数据集技术解析
摘要
SK-QuAD是首个斯洛伐克语手动标注的问答数据集,包含超过91,000个事实性问答对。每个问题在对应段落中标记答案位置,同时包含"未回答问题"和"合理答案"形式的负样本。该数据集免费开放用于科学研究,旨在推动斯洛伐克语及多语言自然语言问答系统的开发。
数据集构建方法
数据来源与预处理
- 使用斯洛伐克维基百科dump作为数据源
- 文本预处理包括:解析文章、移除标签、分割段落
- 过滤不适用文章(体育赛事结果、数学内容、项目符号等)
- 将数据分为100个批次,确保主题覆盖全面性
标注流程
采用Prodigy标注工具,构建包含以下组件的众包系统:
- PostgreSQL数据库存储结果
- Flask应用监控标注进度
- 150余名志愿者和9名兼职人员参与标注
- 5名付费工作人员进行校验修正
标注阶段
- 可回答问题标注:标注者阅读段落后撰写问题并标记答案位置
- 问答对验证:自动验证后人工校正拼写错误和语法问题
- 不可回答问题标注:将已验证问题修改为不可回答形式并标记合理答案
技术特性分析
疑问代词分析
通过词形变化和介词绑定分析,识别最常见的疑问代词形式:
- Aký (什么类型)
- Kde (哪里)
- Kedy (何时)
- Koľko (多少)
- Kto (谁)
答案类型分类
采用9类别分类系统:
- AP:形容词短语
- NP:名词短语
- VP:动词短语
- PER:人物
- LOC:地点
- ORG:组织实体
- NUM:数量
- DATE:日期时间
- UNK:未知类型
主题覆盖分析
相比英文SQuAD v2.0的741个维基百科类别,SK-QuAD覆盖14,063个类别,主题范围更广泛。
机器翻译补充数据集
翻译方法
- 使用Marian神经机器翻译框架
- 采用Helsinki NLP Opus英斯翻译模型(BLEU分数36.8)
- 翻译流程:JSON转段落格式→机器翻译→答案定位→结果验证
答案定位技术
由于斯洛伐克语的屈折变化和自由语序特性,采用多级搜索策略:
- 原始答案精确搜索
- 翻译答案精确搜索
- 基于词向量的近似搜索(使用cosine相似度)
实验验证
单语问答实验
使用以下预训练模型:
- 单语SlovakBERT(1.1亿参数)
- 多语言BERT(1.1亿参数)
训练数据配置:
- SQuAD v2.0英文原集
- SK-QuAD手动标注集
- SQuAD-sk机器翻译集
- 组合数据集
实验结果证实手动标注数据集效果最佳,单语模型性能 consistently优于多语言模型。
多语言问答实验
采用零样本方法,使用XQuAD作为验证集:
- 训练集包含KorQuAD、SberQuAD和SK-QuAD
- 评估指标:F1和EM分数
- 组合训练集在多数语言上获得最佳效果
技术贡献
- 提供首个斯洛伐克语问答数据集
- 开发双轨(手动+机器翻译)数据集构建方法
- 验证低资源语言数据对多语言问答系统的提升效果
- 发布可用于模型训练和评估的基准资源
应用价值
- 为斯洛伐克语NLP研究提供基础资源
- 支持多语言和跨语言问答系统开发
- 促进低资源语言处理技术发展
- 为语言模型评估提供新基准
数据集可通过指定渠道获取,仅供科学研究使用。