大语言模型研究的十大开放挑战

本文深入探讨了大语言模型研究中的十大开放挑战,包括减少幻觉、优化上下文长度、多模态融合、提升效率、新架构设计、硬件替代方案、智能体应用、人类偏好学习、聊天界面优化以及非英语语言支持等关键技术难题。

大语言模型研究的开放挑战

1. 减少和度量幻觉

幻觉指AI模型虚构内容的现象。虽然对创意用例有益,但在大多数场景中属于缺陷。某中心、某机构等企业将幻觉视为生产应用LLM的首要障碍。

缓解幻觉和开发度量指标成为热门研究方向。实用技巧包括:添加上下文、思维链、自一致性、要求简洁回应等。

相关研究:

  • 《自然语言生成中的幻觉综述》(Ji等,2022)
  • 《语言模型幻觉如何雪崩》(Zhang等,2023)
  • ChatGPT在多任务、多语言、多模态下的评估(Bang等,2023)
  • 对比学习减少对话幻觉(Sun等,2022)
  • 自一致性改进思维链推理(Wang等,2022)
  • SelfCheckGPT:黑盒幻觉检测(Manakul等,2023)
  • 某中心NeMo-Guardrails的事实核查示例

2. 优化上下文长度和构建

多数问题需要上下文。例如询问"最佳越南餐厅"时,需明确地理位置。研究表明,16.5%的信息寻求问题依赖上下文,企业场景比例可能更高。

上下文长度对RAG(检索增强生成)至关重要。RAG分为两个阶段:

  1. 分块(索引):收集文档并分块生成嵌入,存储至向量数据库
  2. 查询:将查询转换为嵌入,检索最相似的块

更长的上下文允许包含更多信息块,但模型对信息的利用效率同样重要。研究表明模型更擅长处理开头和结尾的信息(Liu等,2023)。

3. 融合多模态数据

多模态能力强大但被低估。医疗、机器人、电商等行业需要处理文本、图像、视频等多种数据格式。多模态不仅能提升模型性能,还能解决文本数据枯竭问题。

特别令人期待的应用是帮助视障人士浏览互联网和导航现实世界。

重要多模态工作:

  • CLIP:从自然语言监督学习可迁移视觉模型(某机构,2021)
  • Flamingo:少样本学习的视觉语言模型(某中心,2022)
  • BLIP-2:冻结图像编码器的语言图像预训练(某机构,2023)
  • KOSMOS-1:对齐感知与语言模型(某中心,2023)
  • PaLM-E:具身多模态语言模型(某机构,2023)
  • LLaVA:视觉指令调优(Liu等,2023)
  • NeVA:视觉语言助手(某中心,2023)

4. 提升LLM速度和降低成本

GPT-3.5刚发布时,延迟和成本是主要顾虑。但在半年内,社区就开发出性能接近但内存占用仅2%的模型。

模型优化四大技术:

  • 量化:减少参数位数(32位→16位→4位)
  • 知识蒸馏:小模型模仿大模型
  • 低秩分解:用低维张量替代高维张量
  • 剪枝

Alpaca使用知识蒸馏,QLoRA结合低秩分解和量化。

5. 设计新模型架构

自2017年Transformer架构问世以来,其统治地位持续至今。开发超越Transformer的新架构面临巨大挑战,需要在现有硬件上达到令人关注的规模。

2021年Chris Ré实验室的S4架构引发关注,最近又推出Monarch Mixer架构。核心思想是开发次二次复杂度架构,提高效率。

6. 开发GPU替代方案

自2012年AlexNet以来,GPU一直是深度学习主导硬件。许多公司尝试开发AI新硬件,包括某中心的TPU、Graphcore的IPU和Cerebras。

量子计算和光子芯片是另两个 exciting 方向。光子芯片利用光子传输数据,实现更高效计算,相关初创公司已融资数亿美元。

7. 实现可用智能体

智能体是可以采取行动(浏览网页、发送邮件等)的LLM。尽管Auto-GPT成为GitHub第25大热门仓库,但LLM的可靠性和性能仍受质疑。

斯坦福实验显示,生成智能体能够产生 emergent 社会行为。该领域知名初创公司Adept已融资近5亿美元。

8. 改进人类偏好学习

RLHF(人类反馈强化学习)很酷但略显粗糙。开放问题包括:

  1. 如何数学表示人类偏好?
  2. 什么是人类偏好?不同机构有不同定义
  3. 谁的代表性算"人类"偏好?考虑文化、宗教、政治差异

数据收集存在挑战,例如OpenAI的标注员年龄均低于65岁,主要来自菲律宾和孟加拉。

9. 提高聊天界面效率

聊天界面是否适合广泛任务存在讨论。优点包括:易学性、可访问性、鲁棒性。改进方向:

  • 单轮多消息支持
  • 多模态输入优化
  • 工作流集成
  • 消息编辑和删除功能

10. 构建非英语LLM

当前英语优先的LLM在其他语言上表现不佳。已知计划包括:

  • Aya:多语言AI进步开源计划
  • Symato:越南语ChatGPT
  • Cabrita:葡萄牙语InstructLLaMA
  • 多个中文LLM项目

低资源语言面临数据质量低、技术不同的挑战。AI工具对语言学习的影响尚不明确。

结论

不同挑战难度各异:减少幻觉最难;提升效率永无止境;新架构和硬件虽难但必然出现;人类偏好学习更多是政策问题;界面优化属于UX问题。需要非技术背景人员共同解决这些挑战。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计