大规模输出空间预测框架开源
在互联网时代,许多计算任务涉及在庞大的候选空间中寻找少量解决方案。例如问答系统可以从网络任何地方提取答案,维基百科文章主题分类的分类法包含50万个术语,而某中心商店的产品查询则有数百万个潜在匹配项。
这类极端多标签排序(XMR)问题面临两大挑战:规模挑战和稀疏性挑战。这些大型搜索空间中的项目往往具有长尾分布:大多数句子很少作为问题答案;维基百科分类法中的大多数主题很少适用于文本;大多数产品很少被购买等。这意味着尝试使用机器学习解决XMR问题时,往往缺乏足够的数据。
PECOS框架解决方案
开发了名为PECOS的通用框架(用于巨大且相关输出空间的预测),该框架将XMR问题分解为三个阶段:
- 语义标签索引:根据语义内容将标签分组
- 匹配:将输入实例与标签组关联
- 排序:在每组中找到最符合输入的标签
三阶段框架有助于解决扩展和长尾问题。通过实现与标签组而非单个标签的匹配,标签索引显著减少了匹配步骤的搜索空间。同时帮助排序模型利用常见标签与不常见标签之间的语义相似性。
技术实现细节
语义标签索引
语义标签索引包含两个组件:表示方案和分组算法。对于基于文本的输入,表示方案可能利用预训练的文本嵌入,如Word2Vec或ELMo;对于基于图的输入,可能使用有关输入与其在图中的邻居关系的信息。
内置模型
PECOS包含两种实现完整框架的模型:
- 递归线性模型
- 深度学习模型
在涉及280万个标签的数据集测试中,深度学习模型相对于递归线性模型将排名第一结果的精确度提高了10%,但训练时间长了265倍。
递归线性匹配器
XR-Linear线性模型递归学习其匹配算法:首先学习标签空间的B元划分,然后为实现该划分的匹配器,为每个现有组学习新的B元划分,依此类推,直到达到所需的递归深度。
在推理时,XR-Linear通过相同的递归树来识别相关标签。为提高效率,使用波束搜索来限制搜索空间。
应用价值
该框架已成功用于产品搜索和推荐等关键项目,通过开源代码希望能促进这一重要主题的进一步研究,包括极端多标签问题的零样本学习、极端上下文bandits和深度强化学习等方向。