将LLM带出黑盒:人机协同蒸馏实用指南
随着自然语言处理领域的进步和新思想的发展,出现了越来越多高效利用计算资源的方法,从而产生运行成本更低、更易于控制的AI系统。大型语言模型(LLM)具有巨大潜力,但也对工业中需要模块化、透明度和数据隐私的现有工作流程提出了挑战。
本次演讲展示在实际应用中使用最新最先进模型的实用解决方案,并将其知识蒸馏为更小更快的组件,以便在内部运行和维护。分享实际案例研究和方法,在开发时而非运行时使用大型生成模型,通过高效的人机协同工作流程管理其结构化预测,并蒸馏出小至6MB的特定任务组件,这些组件运行成本低、私密且可靠,并可组合成更大的NLP系统。
如果你试图构建一个执行特定任务的系统,不需要将请求转换为任意语言并调用最擅长理解任意语言的最大模型。开发这些模型的人正在讲述那个故事,但其他人没有义务相信他们。
资源链接
- 博客文章:https://explosion.ai/blog/human-in-the-loop-distillation
- 案例研究1:https://speakerdeck.com/inesmontani/workshop-half-hour-of-labeling-power-can-we-beat-gpt
- 案例研究2:https://explosion.ai/blog/sp-global-commodities
- 案例研究3:https://explosion.ai/blog/gitlab-support-insights
- transcript与问答:https://www.infoq.com/presentations/llm-disttilation/
实际案例与技术方法
人机协同蒸馏实用指南
博客文章版本,介绍在实际应用中使用最新最先进模型的实用解决方案,并将其知识蒸馏为更小更快的组件,以便在内部运行和维护。
某机构如何通过NLP使市场更加透明
案例研究关于某机构在高安全环境中的高效信息提取管道,用于实时商品交易洞察,使用人机协同蒸馏。
半小时标注能力:我们能击败GPT吗?
案例研究使用LLM创建数据,并通过蒸馏的特定任务模型击败少样本基线,用于从r/cooking Reddit帖子中提取菜肴、成分和设备。
应用NLP思维:如何将问题转化为解决方案
博客文章讨论应用NLP的最大挑战以及将业务问题转化为机器学习解决方案,包括效用与准确性的区别。
某中心如何使用spaCy分析支持票据并赋能社区
案例研究关于某中心的大规模NLP管道,用于从支持票据和使用问题中提取可操作的见解。
在spaCy中使用LLM处理结构化数据
spacy-llm包将LLM集成到spaCy管道中,具有模块化系统,用于快速原型设计和提示,并将非结构化响应转换为各种NLP任务的强大输出。
在Prodigy中使用LLM进行人机协同蒸馏
Prodigy提供预配置的工作流程,使用LLM加速和自动化注释,并创建数据集,将大型生成模型蒸馏为更准确、更小、更快且完全私有的特定任务组件。
InfoQ开发峰会演讲
2024年9月26日在德国慕尼黑InfoQ开发峰会的视频录制、演讲transcript、摘要和问答。
技术架构与工作流程
处理管道原型
使用github.com/explosion/spacy-llm提示模型并将输出转换为结构化数据,生成结构化的机器面向Doc对象。
人机协同循环
包括持续评估基线、提示、迁移学习和蒸馏模型,确保高效且准确的数据处理。
案例研究性能指标
- 案例研究1:模型大小400MB,处理速度2K+词/秒,数据开发时间8小时,推理时间加速20倍。
- 案例研究2:模型大小6MB,处理速度16K+词/秒,F-score达到99%,数据开发速度提升10倍,8个市场管道在生产中运行。
- 案例研究3:处理1年支持票据,速度提升6倍,易于适应新场景和业务问题。
关键原则
- 将问题简化:减少操作复杂性意味着更少出错。
- 重构过程:分解更大问题,重新评估依赖关系,选择最佳技术。
- 因子化业务逻辑:分离通用功能与产品特定逻辑。
- 现实不是端到端预测问题:迭代和正确工具可以突破原型高原,无需在开发最佳实践或隐私上妥协。
通过人机协同蒸馏,可以实现高效、私有且可靠的NLP系统部署,打破LLM的黑盒限制。