课程概述
本课程专注于使用Python和spaCy进行自然语言处理(NLP),从基础语法到与大语言模型(LLM)的集成。内容包括spaCy的核心概念(如令牌、跨度、文档和实体)、预训练模型的应用、自定义模型训练,以及利用spaCy-LLM插件和Hugging Face生态系统(如GliNER和SpanMarker)增强NLP项目。
主要内容
- spaCy基础语法:学习令牌、文档、实体和跨度的操作,使用Displacy可视化工具。
- 数据探索与处理:使用生成器高效处理大量文本数据(如播客转录本),进行数据清洗和实体检测。
- 性能优化:通过批处理、多核处理和组件禁用提升spaCy模型的处理速度。
- 项目实战:构建结构化NLP项目,包括数据标注、配置管理、模型训练和评估,使用spaCy Projects框架管理工作流。
- 高级工具集成:集成Hugging Face模型(如SpanMarker)进行实体识别,使用ChatGPT和spaCy-LLM进行提示工程和结构化输出生成。
- 实际应用:以检测Python工具和编程语言为例,演示从数据收集到模型部署的全过程。
适合人群
本课程适合有一定Python基础的开发者,希望入门NLP或扩展数据技能。无需深厚的数学或机器学习背景,但熟悉虚拟环境和外部包管理将更有帮助。课程强调实践,通过Jupyter笔记本和项目代码提供动手经验。
学习成果
完成课程后,您将能够设置和管理NLP项目,训练自定义spaCy模型,并集成现代工具如LLMs到工作流中,提升文本数据处理能力。
注:课程代码和资源可在GitHub仓库获取,包含转录本数据、Jupyter笔记本和项目模板。所有内容注重实用性和可重复性,帮助您快速应用于实际项目。