spaCy是一个用于构建自然语言处理流水线的Python库。该库可用于多种文本相关任务,如识别命名实体、标注文本范围、文档分类或揭示文本的句法结构。
spaCy的模块化架构使其能够使用多种神经网络模型,包括来自Thinc的卷积网络、来自Curated Transformers或Huggingface Transformers的Transformer模型,以及通过spacy-llm集成的多种大型语言模型(LLMs)。
本次分享将展示如何使用Transformer模型(从预训练模型如XLM-RoBERTa到大型语言模型如Llama2)来创建最先进的文本标注流水线,用于命名实体识别等任务。
Daniël是某机构的机器学习工程师,在自然语言处理的神经网络模型领域有超过十年的工作经验。他热衷于从构建新的语言处理组件到优化CUDA内核性能的各个方面。
Madeesh是某机构的机器学习工程师,喜欢深入研究代码的底层细节,无论是神经网络还是其他方面。他曾作为自然语言处理研究员从事语言习得和问题生成的研究工作。