ICML2025获奖论文中的机器学习技术突破

本文详细介绍了ICML2025会议获奖论文中的机器学习技术突破,包括共形预测、多令牌生成、掩码扩散模型等前沿技术,涵盖了算法创新、理论分析和实际应用等多个维度。

ICML2025获奖论文技术亮点

杰出论文奖

共形预测作为贝叶斯求积

摘要:随着机器学习预测系统越来越多地用于高风险场景,理解预测模型在部署时的表现至关重要。共形预测等无分布不确定性量化技术能够为黑盒模型的损失提供保证,即使模型细节被隐藏。然而,这些方法基于频率派概率,限制了其适用性。研究从贝叶斯角度重新审视共形预测的核心方面,揭示频率派保证的缺点,并提出基于贝叶斯求积的实用替代方案,提供可解释的保证,并更丰富地表示测试时可能观察到的损失范围。

突破下一令牌预测的创造性限制

摘要:设计了一套最小算法任务集,作为开放现实任务的松散抽象。通过这些任务,清晰可控地量化当今语言模型的创造性限制。与需要创造性、远见思维的现实任务类似,这些任务需要隐式的、开放的随机规划步骤。研究发现下一令牌学习存在短视和过度记忆问题;多令牌方法(无教师训练和扩散模型)在产生多样化和原始输出方面表现更优。此外,通过在输入层注入噪声(称为种子条件化),可以在不损害连贯性的情况下引发随机性,效果与从输出层进行温度采样相当(在某些条件下更优)。

预测在识别最弱势群体中的价值

摘要:机器学习越来越多地用于政府项目,以识别和支持最脆弱的个体,优先考虑风险最大的人而不是优化总体结果。本文通过数学模型和关于德国居民长期失业的真实案例研究,全面理解预测在识别最弱势群体中的相对有效性。研究结果为政策制定者设计这些系统时提供了清晰的分析框架和实用的数据驱动工具。

掩码扩散模型中的令牌排序

摘要:近年来,掩码扩散模型(MDMs)已成为离散域生成建模的有前途的替代方法。与自回归模型(ARMs)相比,MDMs在训练时复杂度更高,但在推理时具有灵活性。研究从理论和实证角度证明,MDMs确实训练计算上难解的子问题。在推理方面,自适应选择令牌解码顺序的策略显著增强了MDMs的能力,使其能够避开困难子问题。在数独等逻辑谜题上,自适应推理将预训练MDMs的解决准确率从<7%提高到≈90%,甚至超过了通过教师强制明确学习正确解码顺序的ARMs。

缺失数据的得分匹配

摘要:得分匹配是学习数据分布的重要工具,应用于扩散过程、基于能量的建模和图形模型估计等多个领域。尽管有这些应用,但很少工作探索其在数据不完整时的使用。研究通过调整得分匹配(及其主要扩展)以在数据可能在任何坐标子集上部分缺失的灵活设置中工作,填补了这一空白。提供了两种独立的得分匹配变体:重要性加权(IW)方法和变分方法。在有限域设置中为IW方法提供了有限样本边界,并显示其在小样本低维情况下具有特别强的性能。变分方法在更复杂的高维设置中表现最强,在真实和模拟数据的图形模型估计任务中进行了演示。

CollabLLM:从被动响应到主动协作

摘要:大型语言模型通常通过下一轮奖励进行训练,限制了其优化长期交互的能力。因此,它们经常被动响应模糊或开放的用户请求,未能帮助用户达到最终意图,导致低效对话。为了解决这些限制,引入了CollabLLM,一种新颖的通用训练框架,增强多轮人机协作。其关键创新是协作模拟,使用多轮感知奖励估计响应的长期贡献。通过强化微调这些奖励,CollabLLM不仅响应用户请求,还主动发现用户意图并提供有见地的建议——这是迈向更以人为本的AI的关键一步。还设计了一个多轮交互基准,包含文档创建等三个挑战性任务。CollabLLM显著优于基线,任务性能平均提高18.5%,LLM法官的交互性提高46.3%。最后,进行了包含201名法官的大规模用户研究,CollabLLM将用户满意度提高17.6%,用户花费时间减少10.4%。

杰出立场论文奖

立场:AI安全应优先考虑未来工作

摘要:当前的AI安全努力优先过滤有害内容、防止人类行为操纵以及消除网络安全或生物安全中的存在风险。尽管紧迫,但这种狭窄的焦点忽视了塑造社会长期轨迹的关键以人为本的考虑。本文识别了忽视AI对未来工作影响的风险,并推荐全面的过渡支持,以实现具有人类代理的有意义劳动的演变。通过经济理论视角,强调了AI对人类生计的跨期影响和劳动力市场结构变化加剧收入不平等的问题。此外,AI开发主要利益相关者的闭源方法类似于通过剥削资源、滋生创造性劳动中的平庸和垄断创新的寻租行为。为此,主张支持强大的国际版权解剖,通过实施集体许可确保使用数据训练AI模型的公平补偿机制。强烈推荐支持工人的全球AI治理框架,以增强共享繁荣和经济正义,同时减少技术债务。

立场:AI会议同行评审危机需要作者反馈和审稿人奖励

摘要:主要人工智能(AI)会议的同行评审过程面临前所未有的挑战,论文提交量激增(每个场所超过10,000份提交),同时评审质量和审稿人责任问题日益关注。本立场论文认为需要将传统的单向评审系统转变为双向反馈循环,作者评估评审质量,审稿人获得正式认证,创建促进可持续、高质量同行评审系统的责任框架。当前评审系统可以视为作者、审稿人和系统(即会议)三方之间的互动,认为三方都对当前问题负有责任。然而,作者的问题只能通过政策执行和检测工具解决,道德问题只能通过自我反思纠正。因此,本文专注于通过两个关键机制改革审稿人责任与系统奖励:(1)两阶段双向评审系统,允许作者评估评审,同时最小化报复行为;(2)系统审稿人奖励系统,激励高质量评审。呼吁社区对这些问题和增强同行评审过程所需的改革给予强烈关注。

时间检验奖

批量归一化:通过减少内部协变量偏移加速深度网络训练

摘要:训练深度神经网络的复杂性在于每一层输入的分布在训练过程中会发生变化,因为前一层的参数会改变。这通过要求较低的学习率和仔细的参数初始化来减慢训练,并且使得训练具有饱和非线性的模型非常困难。将这种现象称为内部协变量偏移,并通过归一化层输入来解决这个问题。方法的力量在于将归一化作为模型架构的一部分,并对每个训练小批量执行归一化。批量归一化允许使用更高的学习率,并且对初始化不那么谨慎。它还可以作为正则化器,在某些情况下消除了Dropout的需要。应用于最先进的图像分类模型,批量归一化以14倍更少的训练步骤达到相同的准确率,并且显著超过原始模型。使用批量归一化网络的集成,改进了ImageNet分类的最佳公布结果:达到4.9%的前5验证错误(和4.8%测试错误),超过了人类评分者的准确率。

荣誉提及:信任区域策略优化

摘要:描述了一种优化策略的迭代过程,具有保证的单调改进。通过对理论 justified 过程进行若干近似,开发了一种实用算法,称为信任区域策略优化(TRPO)。该算法类似于自然策略梯度方法,并且对于优化大型非线性策略(如神经网络)有效。实验证明了其在各种任务上的稳健性能:学习模拟机器人游泳、跳跃和步态;以及使用屏幕图像作为输入玩Atari游戏。尽管其近似偏离了理论,但TRPO倾向于提供单调改进,几乎不需要调整超参数。

荣誉提及:归一化流的变分推断

摘要:近似后验分布的选择是变分推断的核心问题之一。大多数变分推断应用采用简单的后验近似族以允许高效推断,专注于均值场或其他简单结构近似。这种限制对使用变分方法做出的推断质量有显著影响。引入了一种指定灵活、任意复杂和可扩展的近似后验分布的新方法。近似是通过归一化流构建的分布,其中简单的初始密度通过应用一系列可逆变换转化为更复杂的密度,直到达到所需的复杂度水平。使用这种归一化流视图开发了有限和无穷流的类别,并提供了构建丰富后验近似的方法的统一视图。证明了具有更匹配真实后验的后验的理论优势,结合摊销变分方法的可扩展性,在性能和变分推断的适用性上提供了明显改进。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计