阿拉伯方言到标准阿拉伯语的机器翻译技术突破

本文针对阿拉伯方言与标准阿拉伯语之间的机器翻译难题,提出了无训练提示技术和资源高效微调管道两种解决方案。通过评估六大语言模型,发现少样本提示效果最佳,量化模型在减少60%内存使用的同时保持性能损失不足1%,为低资源环境下的方言翻译提供了实用方案。

摘要

方言阿拉伯语(DA)对自然语言处理(NLP)构成持续挑战,因为阿拉伯世界的日常交流大多使用与现代标准阿拉伯语(MSA)差异显著的方言。这种语言鸿沟限制了数字服务和教育资源的获取,并阻碍了阿拉伯语机器翻译的进展。本文针对黎凡特、埃及和海湾方言的DA-MSA翻译,在低资源和计算受限环境下提出两项核心贡献:全面评估无训练提示技术,以及开发资源高效的微调管道。

方法

通过对六大语言模型(LLMs)的提示策略评估,发现少样本提示 consistently 优于零样本、思维链和我们提出的Ara-TEaR方法。某中心的GPT-4o在所有提示设置中表现最佳。在微调方面,量化后的Gemma2-9B模型达到49.88的CHrF++分数,优于零样本GPT-4o(44.58)。联合多方言训练模型比单方言模型性能高出10%以上CHrF++,4位量化减少60%内存使用且性能损失不足1%。

结论

实验结果为提升阿拉伯语NLP中的方言包容性提供了实用蓝图,表明即使资源有限也能实现高质量的DA-MSA机器翻译,为更具包容性的语言技术铺平道路。

主题分类: 计算与语言(cs.CL)
引用编号: arXiv:2507.20301 [cs.CL]
提交日期: 2025年7月27日

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计