低成本学习:用最少数据提升语言模型在社会科学中的表现

本文探讨了三种降低机器学习标注数据需求的技术——弱监督、迁移学习和提示工程,并通过六项社会科学任务验证其有效性,尤其展示了大型语言模型在零样本提示下的低成本高精度潜力。

摘要

机器学习领域近期在减少标注训练数据需求方面取得显著进展。这些“低成本”学习技术对社会科学具有重要意义,因为构建大型标注数据集通常是应用机器学习进行分析任务的主要障碍。本文回顾了近年来发展的三种“低成本”技术:弱监督、迁移学习和提示工程(特别针对大型语言模型的零样本提示)。每种技术均附有原理说明,并在六种真实社会科学应用场景(两种任务×三种数据集组合)中演示其效果。结果显示所有技术均表现良好,其中大型语言模型的提示工程能以极低成本实现高准确率。研究附带了代码仓库以便复现。本文旨在推动这些技术在社会科学中的进一步应用。

技术方法

  1. 弱监督:通过启发式规则或噪声标签生成替代人工标注,降低数据标注成本。
  2. 迁移学习:利用预训练模型在少量目标数据上微调,适应新任务。
  3. 提示工程:设计自然语言指令直接引导大型语言模型完成任务,零样本场景下无需训练数据。

实验结果

  • 在情感分析、文本分类等社会科学任务中,所有技术均达到接近全监督学习的性能。
  • 零样本提示的GPT-3模型在部分任务中准确率超过80%,仅需设计合适的提示模板。
  • 代码仓库提供完整实现流程,支持PyTorch和HuggingFace生态。

结论

通过系统评估验证了低成本学习技术在社会科学研究中的可行性,为资源有限的研究者提供了实用工具链。未来可扩展至更复杂的跨领域迁移场景。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计