2017年开源NLP库spaCy与标注工具Prodigy技术突破

回顾2017年某机构在自然语言处理领域的技术成果,包括spaCy v2.0的深度学习模型升级、多语言支持扩展,以及新型主动学习标注工具Prodigy的发布与功能特性,涵盖文本分类、实体识别等技术突破。

公司与融资

过去一年中,某机构通过咨询项目实现了公司及个人开支120%的资金自给,未接受任何外部投资并保持100%所有权。期间拒绝了36次投资者会晤机会,专注于为客户提供定制化机器学习解决方案。

spaCy技术进展

2017年spaCy成长为最受欢迎的人工智能开源库之一,主要技术成果包括:

  • 开发新一代深度学习模型,在文本分类、解析、标注和命名实体识别(NER)方面达到接近最先进的准确率
  • 改进训练API、更新机制及流水线定制功能,新增模型打包系统
  • 推出扩展Doc、Span和Token对象的自定义属性系统
  • 发布18个正式版本和19个alpha版本,合并来自129名开发者的3,238次提交
  • 提供8种语言的13个预训练统计模型, tokenization支持扩展至26种语言
  • 重构文档站点的技术文档体系,包含2.5万字说明和12个新教程

Prodigy标注工具

12月发布基于主动学习的商用标注工具Prodigy,具备以下特性:

  • 推出v1.0至v1.2版本及5个测试版
  • 实现9种标注界面和20+内置工作流方案
  • 采用主动学习技术实现高效机器学习标注
  • 发布3篇技术博客详解系统设计理念,并配备2个教学视频

其他开源项目

  • Thinc:spaCy的Python机器学习库,2017年发布17个版本
  • LightNet:基于DarkNet开发的图像标注测试框架
  • cython-blis:高性能矩阵乘法Python库(暂不支持Windows)
  • spacymoji:spaCy表情符号处理插件,展示自定义流水线组件能力

技术演讲与出版物

2017年发布多篇技术内容:

  • PyCon以色列主题演讲:Python在AI领域的语言优势
  • 视频教程:spaCy NER模型解析、Prodigy分类器训练实践
  • 技术文章:spaCy v2.0自定义流水线、伪排练防遗忘机制
  • 深度分析:监督学习数据收集优化、重复问题数据关系学习
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计