环境智能与通用人工智能之路
在某中心re:MARS大会(专注于机器学习、自动化、机器人技术和太空的会议)上,Alexa AI高级副总裁兼首席科学家阐述了环境智能这一新兴范式。环境智能指人工智能嵌入我们周围的环境中,既能响应明确请求,也能预测用户需求,并在不需要时隐入背景。该技术被视为实现通用智能(GI)的最实用路径。
什么是环境智能?
环境智能是嵌入环境各处的AI技术,具有反应性(响应明确请求)和主动性(预测需求)双重特性。它整合多种传感技术(声音、视觉、超声波、温湿度等大气传感、深度传感器和机械传感器),并执行播放音乐、查询信息、购物或控制智能家居设备等操作。
以Alexa为例,用户每周与其进行数十亿次交互。通过预测性功能(如Hunches和Routines),超过30%的智能家居交互由Alexa主动发起。
环境智能如何通向通用智能?
Alexa由30多个处理不同感官信号的机器学习系统组成,其实时协同使其成为全球最复杂的AI应用之一。为满足用户对个人助理、顾问和伙伴的更高期待,Alexa需从专用AI模块集合演进为能自主学习并将知识泛化到新场景的系统。
通用智能具备三大关键属性:
- 能完成多项任务
- 快速适应不断变化的环境
- 以最少外部人工输入学习新概念和动作
当前基于Transformer的大语言模型通过自监督训练,以更少人工标注数据支持多任务处理。例如Alexa教师模型(基于Alexa交互预训练)在语言理解、对话预测、语音识别甚至视觉场景理解中共享知识。多语言模型表现也普遍优于单语言模型。
自学习机制每周自动修正数千万缺陷(包括用户错误和语言理解模型错误)。用户可教授Alexa新行为,系统能自动跨上下文泛化,如将灯光设置术语应用于扬声器设置。
常识推理的关键作用
Alexa已展现多领域常识推理能力:
- 设置"超级碗提醒"时,不仅识别赛事时间,还转换为用户时区并在赛前10分钟提醒
- 通过建议Routines自动化频繁交互模式(如早上7点自动开灯和调高温度)
- Hunches功能检测异常(如晚上9点车库门未关时发出警报)
未来重点包括:
- 在对话AI中普及常识知识:已发布最大规模交互式社会常识数据集
- “先思考后说话"生成方法:结合大语言模型和常识知识图(如ConceptNet)外化隐性知识
- 多步推理复杂查询:如"奥地利是否比挪威获得更多滑雪奖牌?“需解析滑雪项目、检索奖牌数据并比较结果
- 可解释性要求:回应需总结推理过程(如"挪威在冬奥会滑雪项目中获X枚奖牌,比奥地利多Y枚”)
对话探索技术突破
最令人兴奋的进展是对话探索功能:
-
对话流预测:通过Alexa Conversations中的深度学习实现
- 基于用户交互、对话历史和当前查询决定行动
- 支持自然屏幕导航(按主题或部分标题搜索)
- 使用查询引导注意力和自注意力机制整合屏幕上下文
-
网络级神经信息检索:
- 跨模态、跨语言检索数十亿数据点
- 基于Transformer的语义匹配模型
- 针对多元数据源的多阶段训练优化
-
自动摘要:
- 深度学习模型生成信息摘要片段
- 保留关键信息的同时精简内容
用户将可通过环境设备进行对话式探索,无需手机或电脑即可获取网络信息,由Alexa承担内容研究的重任。当用户提出问题时,回应包含辅助决策的具体信息(如产品评论摘要),若需更多选项,Alexa能基于反馈优化答案或提供建议。