巴西法律大语言模型Juru的技术解析

本文介绍基于Mistral-7B架构的巴西法律领域大语言模型Juru,通过19亿高质量法律文本的领域专业化训练,在减少预训练数据量的同时提升法律任务性能,并分析其跨领域知识遗忘现象。

摘要

高计算成本限制了大规模语言模型的研究。为解决该问题,研究团队采用领域专业化与高质量数据预训练策略,基于Mistral-7B架构注入19亿巴西权威法律文本令牌,构建法律领域模型Juru。小样本评估显示,该模型在法律基准测试中性能提升,但伴随葡萄牙语和英语通用知识测试的性能退化。研究表明,数据选择策略可优化模型性能并降低探索成本。

技术方法

  1. 模型架构

    • 基础框架:Mistral-7B
    • 训练数据:19亿巴西法律领域唯一令牌(来源包括立法、判例等权威文本)
  2. 训练策略

    • 领域专业化:通过持续预训练(continued pretraining)强化法律语义理解
    • 数据筛选:仅采用高可信度法律文本,避免噪声干扰
  3. 评估结果

    • 法律任务:Few-shot测试显示领域性能显著提升
    • 通用任务:葡萄牙语/英语的MMLU等基准测试出现性能下降,验证"灾难性遗忘"现象
  4. 贡献与启示

    • 证实数据质量对模型效率的关键作用
    • 提供低资源领域适应的可行路径(代码公开于指定URL)

讨论

该研究为计算资源受限场景下的领域模型优化提供实证案例,同时揭示专业化与通用性之间的权衡机制。未来工作可探索多任务学习缓解遗忘问题。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计