推荐系统技术前沿与公平性探讨

本文探讨了推荐系统领域的最新发展,包括自然语言处理技术的应用、序列推荐方法以及算法公平性问题。文章还涉及矩阵分解等传统技术与深度学习模型的对比,以及推荐系统在实际应用中的挑战和解决方案。

RecSys 2022:“推荐系统无处不在”

自然语言处理技术在推荐系统中的应用和算法公平性是今年会议的两个核心议题。

会议概况

ACM推荐系统会议(RecSys)是推荐系统领域的顶级会议。某中心的两位科学家——高级应用科学家Max Harper和高级应用科学经理Vanessa Murdock(均隶属于Alexa购物组织)——与马里兰大学的Jennifer Golbeck共同担任本次会议的三大主席。

Max Harper:RecSys自90年代成立以来,一直专注于机器学习算法及其在用户行为建模中的应用。推荐系统的核心在于个性化,传统应用包括电影、音乐和图书等品味驱动的领域,如今已扩展到旅游、时尚和求职等众多领域。约20%的研究关注用户感知、界面设计和用户体验,同时涉及性能评估、算法扩展、隐私保护等机器学习问题,以及算法的社会影响。

Vanessa Murdock:推荐与搜索的区别在于,推荐可以在用户未主动请求时提供。推荐系统无处不在,例如地图应用显示的兴趣点、Instagram和TikTok的内容推送、Twitter的推文推荐等,这些都对电子商务和广告产生了重大影响。

技术演进

2017年,IEEE Internet Computing将“测试时间奖”授予某中心2003年关于物品协同过滤的论文。协同过滤概念至今仍非常重要,当前更常见的矩阵分解技术本质上属于同类方法。今年RecSys的论文《在物品推荐基准上重新审视iALS的性能》指出,经过良好调优的矩阵分解算法仍能与现代深度学习算法竞争。

可复现性:RecSys的可复现性轨道非常独特,有助于验证研究的真实进展。许多论文报告的增量提升在实际中可能无法累积,可复现性研究能帮助识别结果对数据集、查询或系统参数的依赖性。

序列推荐

自然语言处理技术的应用:今年会议最突出的趋势是将自然语言处理技术(如Transformers和BERT)应用于推荐系统。这些技术通过建模词语关联来学习句子语义,类似地,推荐系统可以通过用户行为序列(如某中心的商品或Netflix的电影)进行序列建模,解决下一项预测等问题。

训练方法:序列推荐采用与语言模型相似的掩码训练方法,隐藏用户交互序列中的某项并尝试预测。挑战在于用户交互序列没有自然边界,且项目点击序列可能包含较多噪声。

应用实例:某中心时尚部门的应用科学家Yusan Lin参与的论文《去噪自注意力序列推荐》探讨如何识别并排除对系统性能有害的项目,以更清晰地学习用户兴趣。

预测局限性:在电子商务中,重复购买行为(如每周购买同一品牌咖啡)的预测价值有限,即使准确率高,推荐意义也不大。

公平性

偏见与公平性:近10年来,研究者对偏见和公平性的关注日益增加。确保算法不引入意外偏差非常重要,尤其是在预测精度提升和系统更深入日常生活的背景下。

问题类型:未知未知问题(如蓝发用户群体)是典型挑战。这类群体在数据中占比极小,基于大众喜好的推荐系统可能无法满足其需求。

解决方案:包括智能采样、合成数据生成、领域适应(如利用绿发用户数据适应蓝发用户需求)以及检查特征偏差(如特征偶然相关或表征不足)。

新闻推荐:新闻推荐中的过滤气泡问题使在线观点范围越来越窄。今年RecSys有研究采用自然语言技术原则性衡量新闻多样性,为算法行为提供数学基础。

研究领域

搜索与信息检索

标签

推荐系统、负责任人工智能

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计