藏语低资源语言建模大规模基准TIB-STC发布

本文介绍TIB-STC,一个专为藏语设计的大规模多领域基准数据集,包含超过110亿标记,涵盖文学、宗教、医学、法律和日常交流等领域。通过三阶段训练流程验证其有效性,包括预训练、监督微调和偏好优化,并在TLUE基准上评估模型性能。

TIB-STC:面向低资源语言建模的大规模结构化藏语基准

大型语言模型(LLM)的发展为自然语言处理(NLP)带来了变革性能力,但这种进展分布不均,特别是对于像藏语这样的低资源且文化丰富的语言。本文提出了TIB-STC,这是首个专门为支持藏语大型语言模型的开发和评估而设计的大规模、专家策划的多领域基准。

TIB-STC跨越文学、宗教、医学、法律和日常交流等多个领域,包含超过110亿个标记,保留了传统语法和风格丰富性。为了验证其效用,通过一个三阶段流程(包括预训练、监督微调和偏好优化)在TIB-STC上训练了一个参考模型Sun-Shine。在藏语特定任务的TLUE基准(包括Ti-MMLU和Ti-SafetyBench)上的评估表明,该基准在实现强大的指令跟随和文化对齐生成方面有效。

TIB-STC的发布旨在推动低资源语言建模的研究,并促进多语言NLP的包容性。所有数据可在以下网址获取:https://arxiv.org/abs/2503.18288

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计