从油气行业到强化学习
Alexander Long原本计划追随父亲的脚步进入油气行业,这一领域在澳大利亚为电气工程师提供了大量就业机会。2013年,在昆士兰大学完成本科学业后,他成为该校与慕尼黑工业大学合作项目的首位入选学生,在德国同时攻读两所大学的电气工程硕士学位。
正是在此期间,他首次接触到强化学习(RL)。“强化学习是解决最优决策问题的一种框架,”Long解释道,“国际象棋就是一个很好的例子:你的目标是赢得比赛,需要通过一系列连续步骤来实现这个目标,但在完成20-30步之前,你得不到任何具体反馈。”这一框架可应用于解决从游戏获胜到优化炼油厂、控制核聚变反应堆等众多问题。
提升学习效率的技术突破
完成硕士学业后,Long在新南威尔士大学攻读计算机科学博士学位,专注于研究如何让强化学习模型通过更少的交互实现更高的数据效率。相关研究成果《基于像素的非参数值近似实现快速且数据高效的强化学习》在AAAI 2022会议上发表。
该论文指出,以往RL算法效率的提升“是以增加样本和计算复杂度为代价的”,这种增加的复杂度“对在线现实场景构成了主要障碍”。研究团队提出了“轨迹间回报非参数近似(NAIT)算法”,该算法在计算和样本效率方面都表现出色。
“这个算法在数据效率方面与所有最佳方法相当,但计算速度提高了约100倍,”Long表示。
计算机视觉领域的技术创新
在实习期间,Long参与了两个与商品列表相关的项目。第一个项目针对商品属性数据缺失或不完整的问题,他采用了一种创新方法:“最新研究表明,只要使用自然语言形式的自由文本,通过文本编码器训练并采用联合目标函数,就能衡量文本与图像内容之间的相似度。我们证明可以使用单一模型来填补这些属性,这具有重要意义,因为以往需要为每个属性单独建立模型。”
第二个项目尝试结合现有单属性模型的最佳特性与其先前项目的预训练方法,以解决长尾分类问题。Long与研究人员共同提出了“检索增强分类(RAC)”方法,该方法在CVPR会议上发表的论文中展示,即使仅使用训练数据集本身作为外部信息源,也在长尾分类问题上“相比之前的最先进方法显示出显著改进”。
“当某个类别的训练数据不足时,检索方法更有效;而当训练数据充足时,传统监督学习更优。RAC可以看作是一种同时使用两种方法的技术,同时还解锁了一些其他能力,”Long解释道。
技术实践与业务影响
Long将他在某中心的经历与父亲在油气行业的经历进行比较,指出效率的微小改进可能产生数千万甚至数亿美元的业务影响。“个人或团队能够通过深入思考,对客户和业务产生不成比例的影响,这种情况在极少数地方才能实现。”
某中心应用科学总监评价道:“他不仅具备出色的技能和强大的发表记录,更展示了应用和扩展机器学习研究最新进展的能力,这正是我们所寻求的。”