大语言模型研究的开放挑战
1. 减少和度量幻觉
幻觉指AI模型虚构内容的现象。虽然对创意用例有益,但在大多数场景中属于缺陷。某中心、某机构等企业将幻觉视为生产应用LLM的首要障碍。
缓解幻觉和开发度量指标成为热门研究方向。实用技巧包括:添加上下文、思维链、自一致性、要求简洁回应等。
相关研究:
- 《自然语言生成中的幻觉综述》(Ji等,2022)
- 《语言模型幻觉如何雪崩》(Zhang等,2023)
- ChatGPT在多任务、多语言、多模态下的评估(Bang等,2023)
- 对比学习减少对话幻觉(Sun等,2022)
- 自一致性改进思维链推理(Wang等,2022)
- SelfCheckGPT:黑盒幻觉检测(Manakul等,2023)
- 某中心NeMo-Guardrails的事实核查示例
2. 优化上下文长度和构建
多数问题需要上下文。例如询问"最佳越南餐厅"时,需明确地理位置。研究表明,16.5%的信息寻求问题依赖上下文,企业场景比例可能更高。
上下文长度对RAG(检索增强生成)至关重要。RAG分为两个阶段:
- 分块(索引):收集文档并分块生成嵌入,存储至向量数据库
- 查询:将查询转换为嵌入,检索最相似的块
更长的上下文允许包含更多信息块,但模型对信息的利用效率同样重要。研究表明模型更擅长处理开头和结尾的信息(Liu等,2023)。
3. 融合多模态数据
多模态能力强大但被低估。医疗、机器人、电商等行业需要处理文本、图像、视频等多种数据格式。多模态不仅能提升模型性能,还能解决文本数据枯竭问题。
特别令人期待的应用是帮助视障人士浏览互联网和导航现实世界。
重要多模态工作:
- CLIP:从自然语言监督学习可迁移视觉模型(某机构,2021)
- Flamingo:少样本学习的视觉语言模型(某中心,2022)
- BLIP-2:冻结图像编码器的语言图像预训练(某机构,2023)
- KOSMOS-1:对齐感知与语言模型(某中心,2023)
- PaLM-E:具身多模态语言模型(某机构,2023)
- LLaVA:视觉指令调优(Liu等,2023)
- NeVA:视觉语言助手(某中心,2023)
4. 提升LLM速度和降低成本
GPT-3.5刚发布时,延迟和成本是主要顾虑。但在半年内,社区就开发出性能接近但内存占用仅2%的模型。
模型优化四大技术:
- 量化:减少参数位数(32位→16位→4位)
- 知识蒸馏:小模型模仿大模型
- 低秩分解:用低维张量替代高维张量
- 剪枝
Alpaca使用知识蒸馏,QLoRA结合低秩分解和量化。
5. 设计新模型架构
自2017年Transformer架构问世以来,其统治地位持续至今。开发超越Transformer的新架构面临巨大挑战,需要在现有硬件上达到令人关注的规模。
2021年Chris Ré实验室的S4架构引发关注,最近又推出Monarch Mixer架构。核心思想是开发次二次复杂度架构,提高效率。
6. 开发GPU替代方案
自2012年AlexNet以来,GPU一直是深度学习主导硬件。许多公司尝试开发AI新硬件,包括某中心的TPU、Graphcore的IPU和Cerebras。
量子计算和光子芯片是另两个 exciting 方向。光子芯片利用光子传输数据,实现更高效计算,相关初创公司已融资数亿美元。
7. 实现可用智能体
智能体是可以采取行动(浏览网页、发送邮件等)的LLM。尽管Auto-GPT成为GitHub第25大热门仓库,但LLM的可靠性和性能仍受质疑。
斯坦福实验显示,生成智能体能够产生 emergent 社会行为。该领域知名初创公司Adept已融资近5亿美元。
8. 改进人类偏好学习
RLHF(人类反馈强化学习)很酷但略显粗糙。开放问题包括:
- 如何数学表示人类偏好?
- 什么是人类偏好?不同机构有不同定义
- 谁的代表性算"人类"偏好?考虑文化、宗教、政治差异
数据收集存在挑战,例如OpenAI的标注员年龄均低于65岁,主要来自菲律宾和孟加拉。
9. 提高聊天界面效率
聊天界面是否适合广泛任务存在讨论。优点包括:易学性、可访问性、鲁棒性。改进方向:
- 单轮多消息支持
- 多模态输入优化
- 工作流集成
- 消息编辑和删除功能
10. 构建非英语LLM
当前英语优先的LLM在其他语言上表现不佳。已知计划包括:
- Aya:多语言AI进步开源计划
- Symato:越南语ChatGPT
- Cabrita:葡萄牙语InstructLLaMA
- 多个中文LLM项目
低资源语言面临数据质量低、技术不同的挑战。AI工具对语言学习的影响尚不明确。
结论
不同挑战难度各异:减少幻觉最难;提升效率永无止境;新架构和硬件虽难但必然出现;人类偏好学习更多是政策问题;界面优化属于UX问题。需要非技术背景人员共同解决这些挑战。