图神经网络
图结构数据通过节点和边表示数据关系,能够提高机器学习效率。图神经网络(GNNs)是处理图结构数据的强大工具,能够生成包含节点信息和图结构信息的嵌入表示。
在现实应用中,某些节点可能没有连接或连接数据存在错误。《Cold Brew: Distilling graph node representations with incomplete or missing neighborhoods》提出了一种处理边数据缺失或错误节点的方法。该方法采用知识蒸馏技术,先训练教师网络生成连接节点的嵌入,再训练学生网络模仿教师输出,能够处理未连接节点,在多个基准数据集上表现出显著改进。
《Node feature extraction by self-supervised multi-scale neighborhood prediction》提出了一种自监督代理任务,不仅教授网络如何表示节点数据,还教授如何表示图结构信息。该方法基于某中心的XR-Transformer模型,被称为GIANT-XRT,已广泛应用于斯坦福大学主办的Open Graph Benchmark竞赛中。
《Graph-relational domain adaptation》将图应用于领域自适应问题,使用图表示所有源域和目标域之间的关系,在合成和真实数据集上都优于现有方法。
时间序列预测
时间序列预测对需求预测至关重要,也可用于产品推荐。《Bridging recommendation and marketing via recurrent intensity modeling》将基于时间序列数据的个性化推荐机制应用于识别新产品目标受众,通过优化产品相关性和客户活动水平,提高了多个数据集上的预测准确性。
《PSA-GAN: Progressive self attention GANs for synthetic time series》提出使用生成对抗网络(GANs)人工生成时间序列训练数据的方法,通过逐步增长生成器和判别器来合成合理的时间序列数据。
数据增强
《Deep AutoAugment》提出全自动化构建数据增强流水线的方法,通过梯度匹配技术识别与真实数据具有相似模型参数更新模式的训练数据,在四组真实数据测试中优于其他10种数据增强技术。
自然语言处理
《Trans-encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations》提出完全无监督训练的模型,结合了双向编码器和交叉编码器的优势。该方法从预训练语言模型开始,通过双向编码进行无监督微调,然后使用微调后的模型为交叉编码生成训练目标,在多个基准任务中优于现有最先进的无监督句子编码器。
数据集优化
《DIVA: Dataset derivative of a learning task》展示了如何计算数据集导数:一个可用于评估特定训练示例相对于特定神经网络模型效用的函数。研究人员使用线性化技术推导出数据集导数的闭式方程,无需重新训练网络即可评估训练示例的效用。
机器学习局限性
某中心因果表示学习团队的两篇论文探讨了学习统计依赖性不足的情境。《Visual representation learning does not generalize strongly within the same domain》描述了图像数据集实验,表明如果训练数据中排除某些变量组合或特定变量值,所有测试的17个机器学习模型在测试数据中都难以识别它们。
《You mostly walk alone: Analyzing feature attribution in trajectory prediction》研究了在交互环境中预测移动物体轨迹的问题,发现现有模型主要基于过去轨迹进行预测,很少关注交互影响。唯一的例外是在篮球视频数据集上训练的模型,这表明精心策划训练数据可以使现有模型在预测轨迹时考虑交互作用。