快速NLP标注方法
本次分享介绍了一种快速、灵活且有趣的命名实体标注方法。该方法仅需未标注文本流和少量种子术语,就可在几小时内完成新实体类型的模型训练。
技术实现流程
给定种子术语后,首先执行交互式词汇学习阶段,使用可通过word2vec等算法从原始文本训练的语义相似度模型。通过文本预处理使相似度模型学习更长短语的向量,并可创建引用词性标签等属性的抽象模式。
模式文件随后用于向标注者呈现候选短语序列,使标注过程简化为二元选择。标注者视线保持固定在屏幕中央附近,通过点击、滑动或单键按压即可做出判断,任务经过缓冲处理以避免延迟。使用此界面时,标注速度通常可达每分钟10-30次决策。若判断特别简单(如确认短语实例均为有效实体),速度还可提升数倍。
模型训练机制
标注者接受或拒绝建议短语时,响应数据即用于启动统计模型训练。统计模型的预测结果随后混入标注队列。尽管信号稀疏(每个句子仅一个短语的二元答案),模型却能快速学习。采用全局神经网络模型配合波束搜索,实现噪声对比估计训练。
工具实现
模式匹配器和实体识别模型已在开源库spaCy中提供,而界面、任务队列和工作流管理则通过标注工具Prodigy实现。