使用Prodigy和迁移学习训练命名实体识别模型

Prodigy是一款现代化的标注工具，用于为机器学习模型收集训练数据，由某机构开发。本视频演示了如何利用Prodigy，通过半自动标注和现代迁移学习技术，从零开始训练命名实体识别模型。

分步教程

03:24 – 创建食材短语列表和匹配模式 09:24 – 借助匹配模式标注来自r/Cooking文本样本中的所有食材 19:25 – 训练并评估初始模型以验证方向正确性 24:44 – 通过修正模型预测结果标注更多样本 31:56 – 训练准确率更高的新模型 34:11 – 对200万+Reddit评论运行模型并统计随时间推移的提及次数 37:00 – 选择有趣结果并进行可视化

技术资源

PRODIGY资源：
- 官网文档：https://prodi.gy
- 在线演示：https://prodi.gy/demo
- 论坛支持：https://support.prodi.gy
- 配方脚本：https://github.com/explosion/prodigy-recipes
本教程相关：
- 代码与数据：https://github.com/explosion/projects/ner-reddit-cooking
- 可视化工具：https://public.flourish.studio/visualisation
- Reddit评论下载：https://files.pushshift.io/reddit/comments
- 技术文档：https://spacy.io

技术要点

该教程完整展示了命名实体识别模型的构建流程，包括：

使用模式匹配进行半自动标注
迭代式模型训练与评估
迁移学习技术的实际应用
大规模文本数据处理方法
结果分析与可视化技术

所有技术实现均基于开源工具和公开数据集，提供了可复现的机器学习工作流程。