环境智能与通用人工智能之路

在某中心re:MARS大会（专注于机器学习、自动化、机器人技术和太空的会议）上，Alexa AI高级副总裁兼首席科学家阐述了环境智能这一新兴范式。环境智能指人工智能嵌入我们周围的环境中，既能响应明确请求，也能预测用户需求，并在不需要时隐入背景。该技术被视为实现通用智能（GI）的最实用路径。

什么是环境智能？

环境智能是嵌入环境各处的AI技术，具有反应性（响应明确请求）和主动性（预测需求）双重特性。它整合多种传感技术（声音、视觉、超声波、温湿度等大气传感、深度传感器和机械传感器），并执行播放音乐、查询信息、购物或控制智能家居设备等操作。

以Alexa为例，用户每周与其进行数十亿次交互。通过预测性功能（如Hunches和Routines），超过30%的智能家居交互由Alexa主动发起。

Alexa由30多个处理不同感官信号的机器学习系统组成，其实时协同使其成为全球最复杂的AI应用之一。为满足用户对个人助理、顾问和伙伴的更高期待，Alexa需从专用AI模块集合演进为能自主学习并将知识泛化到新场景的系统。

通用智能具备三大关键属性：

当前基于Transformer的大语言模型通过自监督训练，以更少人工标注数据支持多任务处理。例如Alexa教师模型（基于Alexa交互预训练）在语言理解、对话预测、语音识别甚至视觉场景理解中共享知识。多语言模型表现也普遍优于单语言模型。

自学习机制每周自动修正数千万缺陷（包括用户错误和语言理解模型错误）。用户可教授Alexa新行为，系统能自动跨上下文泛化，如将灯光设置术语应用于扬声器设置。

Alexa已展现多领域常识推理能力：

未来重点包括：

最令人兴奋的进展是对话探索功能：

对话流预测：通过Alexa Conversations中的深度学习实现
- 基于用户交互、对话历史和当前查询决定行动
- 支持自然屏幕导航（按主题或部分标题搜索）
- 使用查询引导注意力和自注意力机制整合屏幕上下文
网络级神经信息检索：
- 跨模态、跨语言检索数十亿数据点
- 基于Transformer的语义匹配模型
- 针对多元数据源的多阶段训练优化
自动摘要：
- 深度学习模型生成信息摘要片段
- 保留关键信息的同时精简内容

用户将可通过环境设备进行对话式探索，无需手机或电脑即可获取网络信息，由Alexa承担内容研究的重任。当用户提出问题时，回应包含辅助决策的具体信息（如产品评论摘要），若需更多选项，Alexa能基于反馈优化答案或提供建议。