Featured image of post 大规模输出空间预测开源框架解析

大规模输出空间预测开源框架解析

某中心开源PECOS框架,专门解决极端多标签排序问题,通过三阶段处理流程显著提升大规模输出空间的预测效率与准确性,适用于产品搜索、文档分类等场景。

大规模输出空间预测框架开源

在互联网时代,许多计算任务涉及在庞大的候选空间中寻找少量解决方案。例如问答系统可以从网络任何地方提取答案,维基百科文章主题分类的分类法包含50万个术语,而某中心商店的产品查询则有数百万个潜在匹配项。

这类极端多标签排序(XMR)问题面临两大挑战:规模挑战和稀疏性挑战。这些大型搜索空间中的项目往往具有长尾分布:大多数句子很少作为问题答案;维基百科分类法中的大多数主题很少适用于文本;大多数产品很少被购买等。这意味着尝试使用机器学习解决XMR问题时,往往缺乏足够的数据。

PECOS框架解决方案

开发了名为PECOS的通用框架(用于巨大且相关输出空间的预测),该框架将XMR问题分解为三个阶段:

  1. 语义标签索引:根据语义内容将标签分组
  2. 匹配:将输入实例与标签组关联
  3. 排序:在每组中找到最符合输入的标签

三阶段框架有助于解决扩展和长尾问题。通过实现与标签组而非单个标签的匹配,标签索引显著减少了匹配步骤的搜索空间。同时帮助排序模型利用常见标签与不常见标签之间的语义相似性。

技术实现细节

语义标签索引

语义标签索引包含两个组件:表示方案和分组算法。对于基于文本的输入,表示方案可能利用预训练的文本嵌入,如Word2Vec或ELMo;对于基于图的输入,可能使用有关输入与其在图中的邻居关系的信息。

内置模型

PECOS包含两种实现完整框架的模型:

  • 递归线性模型
  • 深度学习模型

在涉及280万个标签的数据集测试中,深度学习模型相对于递归线性模型将排名第一结果的精确度提高了10%,但训练时间长了265倍。

递归线性匹配器

XR-Linear线性模型递归学习其匹配算法:首先学习标签空间的B元划分,然后为实现该划分的匹配器,为每个现有组学习新的B元划分,依此类推,直到达到所需的递归深度。

在推理时,XR-Linear通过相同的递归树来识别相关标签。为提高效率,使用波束搜索来限制搜索空间。

应用价值

该框架已成功用于产品搜索和推荐等关键项目,通过开源代码希望能促进这一重要主题的进一步研究,包括极端多标签问题的零样本学习、极端上下文bandits和深度强化学习等方向。

comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计