公司与融资
过去一年中,某机构通过咨询项目实现了公司及个人开支120%的资金自给,未接受任何外部投资并保持100%所有权。期间拒绝了36次投资者会晤机会,专注于为客户提供定制化机器学习解决方案。
spaCy技术进展
2017年spaCy成长为最受欢迎的人工智能开源库之一,主要技术成果包括:
- 开发新一代深度学习模型,在文本分类、解析、标注和命名实体识别(NER)方面达到接近最先进的准确率
- 改进训练API、更新机制及流水线定制功能,新增模型打包系统
- 推出扩展Doc、Span和Token对象的自定义属性系统
- 发布18个正式版本和19个alpha版本,合并来自129名开发者的3,238次提交
- 提供8种语言的13个预训练统计模型, tokenization支持扩展至26种语言
- 重构文档站点的技术文档体系,包含2.5万字说明和12个新教程
Prodigy标注工具
12月发布基于主动学习的商用标注工具Prodigy,具备以下特性:
- 推出v1.0至v1.2版本及5个测试版
- 实现9种标注界面和20+内置工作流方案
- 采用主动学习技术实现高效机器学习标注
- 发布3篇技术博客详解系统设计理念,并配备2个教学视频
其他开源项目
- Thinc:spaCy的Python机器学习库,2017年发布17个版本
- LightNet:基于DarkNet开发的图像标注测试框架
- cython-blis:高性能矩阵乘法Python库(暂不支持Windows)
- spacymoji:spaCy表情符号处理插件,展示自定义流水线组件能力
技术演讲与出版物
2017年发布多篇技术内容:
- PyCon以色列主题演讲:Python在AI领域的语言优势
- 视频教程:spaCy NER模型解析、Prodigy分类器训练实践
- 技术文章:spaCy v2.0自定义流水线、伪排练防遗忘机制
- 深度分析:监督学习数据收集优化、重复问题数据关系学习