自然语言处理在新闻引语提取中的应用
新闻机构正积极探索如何利用自然语言处理(NLP)和信息抽取(IE)技术将长篇内容模块化为可重用的元素,以适应播客、信息图表等不同叙事形式的需求。这种被称为"模块化新闻"的趋势要求自动化生成定制内容,同时需谨慎处理可能存在的声誉风险。
人机协作的工作流程
为确保模型可靠性,某机构数据科学团队采用Prodigy标注工具构建人机协作流程。核心挑战包括:
- 记者和编辑需要理解AI模型的局限性
- 必须建立清晰的标注指南来定义引语的三个组成部分:
- 来源(说话者)
- 提示语(表达行为的动词短语)
- 内容(引号内的文本)
混合方法的技术实现
团队开发了规则与模型相结合的混合工作流:
- 初期使用正则表达式匹配引号模式
- 发现纯规则方法在非标准引语(如术语标注)上表现不佳
- 转而训练命名实体识别(NER)模型处理复杂情况
标注过程采用四个定制化流程:
- 手动标注初始模式
- 校正模型预测
- 主动学习处理不确定样本
- 评审存在冲突的标注
界面定制与团队协作
团队通过修改配置文件和创建定制脚本优化标注体验:
- 添加标注指南帮助图标
- 实现标注标记功能
- 设计键盘快捷键提升效率
- 采用云文档和即时通讯工具保持团队协同
成果与未来方向
最终模型在三类引语要素识别上达到89%准确率。长期目标包括:
- 构建实时NER过滤的新闻直播系统
- 针对新闻语料优化机构实体识别
- 开发支持调查报道的人物关系分析系统
“AI迫使我们解构工作习惯,这种实验可能导致我们修改标准样式指南。” ——某机构副新闻编辑
该项目不仅改进了技术流程,还可能影响新闻行业的编辑规范制定。