自适应分布式核岭回归:数据孤岛的可行分布式学习方案
摘要
数据孤岛主要由隐私和互操作性问题导致,严重制约了拥有相似数据的不同机构为同一目的进行的协作。基于分治法的分布式学习为解决数据孤岛问题提供了有前景的途径,但面临着自主性、隐私保障和协作必要性等多重挑战。本文重点开发了一种自适应分布式核岭回归(AdaDKRR)方法,综合考虑了参数选择的自主性、通信非敏感信息的隐私性以及性能提升所需的协作必要性。通过坚实的理论验证和全面实验,证明了AdaDKRR的可行性和有效性。
理论上证明,在温和条件下,AdaDKRR的性能类似于在整个数据上运行最优学习算法,验证了协作的必要性,并表明在相同条件下没有其他分布式学习方案能够本质上超越AdaDKRR。数值实验方面,在玩具模拟和两个实际应用中测试了AdaDKRR,结果显示其优于其他现有分布式学习方案。所有这些结果表明,AdaDKRR是克服数据孤岛的可行方案,在智能决策、价格预测和产品性能预测等众多应用领域具有重要价值。
关键词
分布式学习、核岭回归、数据隐私、协作学习、机器学习