提升训练数据质量的工具集
Vincent Warmerdam开发了多种NLP工具(https://github.com/koaning)。这些工具主要针对scikit-learn生态系统,并在多个工具中贯穿了标注的主题。最近,他的工具栈重点在于提升训练数据质量。在本视频中,Vincent和Jay讨论了几种这类工具,并展示了它们如何协同工作。
视频中讨论的工具包括:
- Human-learn:一个构建基于人类的scikit-learn组件的工具包
- Doubtlab:一个帮助发现数据中可疑标签的工具包
- Embetter:一个使得在scikit-learn中非常容易使用嵌入的库
- Bulk:一个使用嵌入进行批量标注的库
讨论包括每个工具的实时演示,展示了一些简单技巧如何发挥巨大作用。
章节内容
- 0:00 简介
- 3:06 数据质量工具
- 9:18 human-learn:自然智能仍然是个好主意
- 12:28 human-learn演示
- 27:11 doubtlab:怀疑你的数据,发现错误标签
- 42:35 embetter:只是一堆有用的嵌入
- 46:16 embetter演示
- 58:10 bulk:一个简单的批量标注工具
- 1:00:20 bulk演示:探索文本数据
- 1:10:47 bulk演示:探索图像
- 1:16:20 为什么使用scikit learn API?优点和局限性是什么?
- 1:17:22 程序员生产力技巧
关于演讲者
Vincent曾在过去担任工程师、顾问、研究员、团队领导和教育家。目前,他在某机构担任机器学习工程师,该公司是spaCy和Prodi.gy的幕后开发机构。除了在某机构的工作外,他还维护许多与scikit-learn相关的插件,并在calmcode.io上提供流行的学习资源。他还经常在会议上演讲,捍卫机器学习中的常识而非炒作。