迈向结构化数据:大语言模型从原型到生产
大语言模型(LLMs)具有巨大潜力,但也对需要模块化、透明度、数据隐私和结构化数据的现有工业工作流程构成挑战。本次演讲将介绍实用方法:如何超越聊天机器人应用LLMs,如何将更成功的NLP项目从原型推进到生产环境,以及如何在现实应用中运用最新尖端模型并将其知识蒸馏到更小更快的组件中,实现内部运行和维护。
工业级软件要求
- 模块化 🧩
- 透明性 🔎
- 可解释性 🔮
- 数据隐私 🔒
- 可靠性 ✅
- 成本效益 💸
NLP任务体系
生成式任务:
- 单文档/多文档摘要
- 问题求解
- 文本复述
- 逻辑推理
- 风格转换
预测式任务:
- 文本分类
- 实体识别
- 关系抽取
- 语法形态分析
- 语义解析
技术架构方案
模型策略
- 大型生成模型(Falcon、MIXTRAL、GPT-4)
- 蒸馏任务特定模型
- 上下文学习与迁移学习(ELECTRA、T5)
- BERT-base仍具竞争力
spaCy-LLM集成
|
|
原型到生产闭环
关键步骤
- 标准化输入输出格式
- 以评估为起点
- 评估实用价值而非仅精度指标
- 迭代处理数据
- 考虑自然语言的结构性与歧义性
人类反馈循环
持续评估基线 → 提示工程 → 主动学习标注 → 迁移学习 → 模型蒸馏
案例研究:PyData NYC 2023
- 任务:从r/cooking帖子提取菜肴、食材和设备信息
- 开发时间:8小时
- 模型大小:400MB
- 处理速度:2000+词/秒
- 成果:超越0.74的少样本LLM基线,推理速度提升20倍
核心结论
- LLMs可作为产品或流程的组件,支持不同方法切换
- 迭代过程和合适工具链可突破原型瓶颈
- 无需在开发最佳实践或隐私保护方面妥协