SAND-Math:使用大语言模型生成新颖、困难且有用的数学问题与解答
摘要
对大语言模型(LLMs)进行复杂数学推理的需求在各行业日益增长。然而,性能优异的数学大语言模型的开发严重受限于难以获取新颖且困难训练数据的稀缺性。本文介绍SAND-Math(合成增强新颖与困难数学问题及解答),该流程通过首先生成高质量问题,随后通过新颖的难度提升步骤系统性地增加其复杂性来解决这一问题。通过两个关键发现证明了方法的有效性:首先,使用SAND-Math数据增强强基线模型显著提升性能,在AIME25基准测试上以绝对17.85分的优势超越次优合成数据集;其次,在专项消融研究中,难度提升过程高度有效:通过将平均问题难度从5.02提升至5.98,该步骤将AIME25性能从46.38%提升至49.23%。完整生成流程、最终数据集及微调模型构成了构建更强大、高效数学推理大语言模型的实用且可扩展工具包。SAND-Math数据集发布于:https://example.com(链接已替换)。
主题分类
计算与语言(cs.CL)
引用信息
arXiv:2507.20527 [cs.CL]
DOI: https://doi.org/10.48550/arXiv.2507.20527
提交历史
- 版本1:2025年7月28日提交
- 版本2:2025年7月29日修订
相关资源
- PDF文档:可查看论文全文
- BibTeX引用:提供标准引用格式
- 代码与数据:通过alphaXiv、CatalyzeX等工具获取关联资源
实验与结果
研究通过系统性实验验证SAND-Math流程的有效性:
- 基线增强:在强基线模型中加入SAND-Math生成数据后,AIME25基准测试性能提升17.85分
- 难度提升分析:专项消融研究表明,难度提升步骤使平均问题难度增加0.96点(5.02→5.98),直接推动模型性能从46.38%提升至49.23%
技术贡献
- SAND-Math流程:集成问题生成与难度增强的端到端管道
- 难度提升方法:通过算法系统性增加数学问题的复杂性
- 完整工具包:提供数据集、生成流程及微调模型,支持高效数学推理模型开发
应用价值
该方法解决了数学大语言模型训练数据稀缺的核心瓶颈,为教育、科研及工业应用提供高质量数学问题生成方案,显著提升模型推理能力与效率。