构建自适应、智能且安全的AI代理
基于大语言模型的AI代理通过自然语言命令执行数字任务展现出巨大潜力。然而其成功取决于与复杂用户界面的精确交互,这需要大量训练数据。通过AndroidControl,分享了迄今为止最多样化的控制数据集,包含超过800个应用的15,000个人工收集的演示。使用该数据集训练的AI代理表现出显著性能提升,有望推动更通用AI代理的研究进展。
为使AI代理能够跨任务泛化,需要从每次经历中学习。提出了一种上下文抽象学习方法,帮助代理从不完美的演示和自然语言反馈中掌握关键任务模式和关系,从而提升其性能和适应性。
开发能够实现用户目标的代理AI有助于提升技术实用性,但在开发代表我们行事的AI时,对齐至关重要。为此提出了测量AI系统目标导向性的理论方法,并展示了模型对用户的感知如何影响其安全过滤器。这些发现共同强调了强大保障措施的重要性,以防止意外或不安全行为,确保AI代理的行动与安全预期用途保持一致。
推进3D场景创建与仿真
随着游戏和视觉特效等行业对高质量3D内容需求的增长,创建逼真3D场景仍然成本高昂且耗时。最新研究引入了新颖的3D生成、仿真和控制方法,简化内容创建流程,实现更快速、更灵活的工作流程。
生产高质量、逼真的3D资产和场景通常需要捕获和建模数千张2D照片。展示了CAT3D系统,该系统能够在最短一分钟内从任意数量的图像(甚至单张图像或文本提示)创建3D内容。CAT3D通过多视角扩散模型从不同视角生成额外的一致性2D图像,并将这些生成图像作为传统3D建模技术的输入。该方法在速度和质量上都超越了先前技术。
模拟包含多个刚性物体的场景(如杂乱桌面或散落的乐高积木)仍然计算密集。为克服这一障碍,提出了名为SDF-Sim的新技术,以可扩展方式表示物体形状,加速碰撞检测,实现大型复杂场景的高效仿真。
基于扩散模型的AI图像生成器难以控制多个物体的3D位置和方向。解决方案Neural Assets引入了物体特定表示,通过动态视频数据训练捕获外观和3D姿态。Neural Assets使用户能够在场景间移动、旋转或交换物体,成为动画、游戏和虚拟现实的有用工具。
改进大语言模型的学习与响应方式
同时推进大语言模型的训练、学习和响应用户方式,在多个方面提升性能和效率。
随着上下文窗口扩大,大语言模型现在能够一次性从数千个示例中学习——称为多样本上下文学习(ICL)。这一过程提升了模型在数学、翻译和推理等任务上的表现,但通常需要高质量的人工生成数据。为使训练更具成本效益,探索了适应多样本ICL的方法,减少对人工整理数据的依赖。
语言模型训练数据量巨大,主要约束在于可用计算资源。解决了重要问题:在固定计算预算下,如何选择合适模型规模以获得最佳结果。
另一种创新方法称为时间反转语言模型(TRLM),探索以反向方式预训练和微调大语言模型。当给定传统LLM响应作为输入时,TRLM生成可能产生这些响应的查询。与传统LLM配对使用时,该方法不仅有助于确保响应更好地遵循用户指令,还改进了摘要文本的引用生成,并增强了针对有害内容的安全过滤器。
整理高质量数据对于训练大型AI模型至关重要,但人工整理难以规模化。为此,联合示例选择(JEST)算法通过识别更大批次中最易学习的数据来优化训练,实现训练轮次减少13倍,计算量减少10倍,超越最先进的多模态预训练基线。
规划任务是AI面临的另一个挑战,特别是在随机环境中,结果受到随机性或不确定性的影响。研究人员使用各种推理类型进行规划,但缺乏一致方法。证明了规划本身可被视为一种独特的概率推理类型,并提出了基于规划有效性排名不同推理技术的框架。
汇聚全球AI社区
很荣幸成为会议钻石赞助商,并支持全球机器学习女性、拉丁裔AI和黑人AI社区在人工智能、机器学习和数据科学领域的建设。
如果您今年参加NeurIPS会议,欢迎莅临某研究机构展位,在会议期间通过演示、研讨会等方式探索前沿研究。