李宏荣获2023首尔时间检验奖

某中心高级首席科学家李宏因其2010年发表的论文《个性化新闻推荐的上下文赌博方法》获得2023首尔时间检验奖。该论文由李宏与蚂蚁集团工程高级总监魏初、某机构研究经理John Langford以及某机构研究员Robert E. Schapire共同完成。

创新性研究方法

该论文提出了一种创新的个性化推荐引擎方法，将推荐问题构建为强化学习问题。研究团队针对网站个性化推荐引擎的挑战，提出直接最大化衡量用户满意度的效用函数。

与传统依赖历史用户活动的推荐系统不同，该方法特别适用于内容频繁变化的网络场景。论文指出：“当用户或内容中有一方或双方都是新出现时，从用户交互中学习用户兴趣与内容匹配度变得不可或缺。”

论文提出了上下文赌博方法驱动新闻内容的个性化推荐：“学习算法基于用户和文章的上下文信息顺序选择文章服务用户，同时根据用户点击反馈调整文章选择策略，以最大化用户总点击量。”

李宏解释道：“新闻内容每小时都在变化，因此我们需要能够快速适应变化内容并向用户推荐最佳内容的解决方案。“该方法需要平衡两个竞争目标：最大化用户满意度和收集用户兴趣与内容"匹配度"信息。

论文开发了实用的上下文赌博算法，可优化用户参与度指标，如点击率、下游收入或其他业务影响。李宏后续还将该方法扩展到以长期用户参与度衡量效用的场景。

“实际上，决策会改变用户行为，进而改变他们与网站的未来交互方式和未来效用，“李宏表示，“因此系统应该能够考虑这些长期影响，做出最大化长期效用而非短期效用的决策。”

李宏在北京清华大学获得计算机科学与技术学士学位，后在阿尔伯塔大学获得计算科学硕士学位，并在罗格斯大学获得计算机科学博士学位，专注于强化学习领域。

该论文提出的算法不仅实现了更高的点击率，还解决了扩展性挑战，因为可以"使用先前记录的随机流量可靠地进行离线评估”。该评估技术本身也在其他网络场景中得到了应用。

李宏与其同事在德克萨斯州奥斯汀举行的2023网络会议上接受了首尔时间检验奖。“我感到非常激动，获奖完全出乎意料，“李宏表示。

科学家经常在论文中发表创新成果。当发明停留在纸面上而没有进入现实世界时，感觉故事就不完整。这个奖项认可了该发明不仅在我们研究的问题上，而且在该领域和行业其他部分都产生了持久影响。