自然语言处理现状与未来发展趋势
技术发展历程
自然语言处理领域经历了从统计方法、机器学习、离散方法到神经网络的重要转变。2014年神经网络在机器翻译等领域取得突破性进展,此后两三年内整个领域发生根本性变革。
语言生成与文本摘要技术
神经网络对语言生成和文本摘要产生巨大影响。当前技术能够从大量非结构化数据中生成语言,包括:
- 基于论证上下文生成反驳论点
- 开发具有说服力的文本生成系统
- 使用BERT等先进工具进行语法分析和小数据集学习
当前技术挑战
现有方法存在过度依赖可用数据集的问题,而非解决实际需求。例如新闻摘要并非迫切需求,因为新闻导语本身就能提供良好摘要。
更值得关注的技术挑战包括:
- 小说章节摘要生成系统
- 使用古登堡计划章节作为训练数据
- 识别文本释义的计算机教学难题
未来技术发展方向
未来5-10年将在三大领域取得重大进展:
机器翻译
全球化环境下对多语言文档理解的需求日益增长
会话系统
开发真正的伴侣式系统,特别为因疫情隔离的老年人提供帮助
在线信息交互
应对网络信息过载,需要内容摘要和深度挖掘能力
技术应用前景
自然语言处理技术在疫情追踪等灾难演化监测中具有重要应用价值。研究人员需要思考如何通过语言技术为社会提供帮助。