背景
电子商务网站经常根据客户查询推荐相关商品,例如为购买手机的用户推荐手机壳。产品关系通常用有向边图表示,边的关系只能单向流动:向购买手机的用户推荐手机壳合理,但反向推荐则不合适。
技术方法
在去年欧洲机器学习会议(ECML)的工作基础上,我们提出BLADE方法,关键创新包括:
动态邻域大小
- 根据节点的入度动态确定嵌入过程的邻域范围
- 使用幂律分布计算邻域大小,考虑节点入度和图中最小入度
- 低连接度节点需要更长的连接链来收集足够信息
偏置采样策略
- 根据邻居节点的入度和出度加权采样概率
- 高连接度节点的嵌入包含更多邻域信息,采样优先级更高
- 突破均匀采样的限制,丰富节点嵌入信息
实验结果
在六个公共数据集上,与三种先进模型比较:
- 推荐数量分别为5/10/20个
- 命中率和平均倒数排名衡量
- 性能优势达4%到230%
在两个大型内部数据集上:
- 相比次优模型提升40%到214%
技术原理
图神经网络(GNN)将图作为输入,输出捕获节点及其关系的嵌入向量。嵌入过程是迭代的:
- 基于产品信息初步嵌入每个节点
- 根据自身嵌入和邻居嵌入重新嵌入节点
- 可扩展到两跳、三跳直至整个图
传统GNN的局限性:
- 固定邻域大小(通常1-2跳)
- 均匀采样邻居节点
- 无法适应不同连接度节点的需求差异
BLADE方法基于先前提出的双嵌入框架(每个节点产生源嵌入和目标嵌入),通过自适应采样机制解决了这些限制。