摘要
高计算成本限制了大规模语言模型的研究。为解决该问题,研究团队采用领域专业化与高质量数据预训练策略,基于Mistral-7B架构注入19亿巴西权威法律文本令牌,构建法律领域模型Juru。小样本评估显示,该模型在法律基准测试中性能提升,但伴随葡萄牙语和英语通用知识测试的性能退化。研究表明,数据选择策略可优化模型性能并降低探索成本。
技术方法
-
模型架构
- 基础框架:Mistral-7B
- 训练数据:19亿巴西法律领域唯一令牌(来源包括立法、判例等权威文本)
-
训练策略
- 领域专业化:通过持续预训练(continued pretraining)强化法律语义理解
- 数据筛选:仅采用高可信度法律文本,避免噪声干扰
-
评估结果
- 法律任务:Few-shot测试显示领域性能显著提升
- 通用任务:葡萄牙语/英语的MMLU等基准测试出现性能下降,验证"灾难性遗忘"现象
-
贡献与启示
- 证实数据质量对模型效率的关键作用
- 提供低资源领域适应的可行路径(代码公开于指定URL)
讨论
该研究为计算资源受限场景下的领域模型优化提供实证案例,同时揭示专业化与通用性之间的权衡机制。未来工作可探索多任务学习缓解遗忘问题。