FedAds: 隐私保护下的转化率估计新基准
近年来,越来越多的网络应用开始使用机器学习模型来提供个性化的服务,满足用户的偏好。转化率 (CVR) 估计是在线推荐和广告系统中的一个基础模块,其目标是在用户点击广告后预测其转化事件(例如,电商广告中的购买行为)的概率。CVR 估计在候选排名和广告竞价策略中起着至关重要的作用。 数据隐私的挑战 在线广告中,用户在发布商页面浏览广告并点击后,会跳转到广告落地页。用户在落地页上的后续行为,包括转化决策,会被收集起来。发布商拥有用户的浏览兴趣和点击反馈,而需求方广告平台则收集用户的点击后行为,例如停留时间和转化决策。为了准确地估计 CVR 并更好地保护数据隐私,垂直联邦学习 (vFL) [35, 40] 成为了一种自然解决方案,它能够在不交换原始数据的情况下,结合两者的优势来训练模型。 然而,目前缺乏标准化的数据集和系统化的评估方法。由于缺乏标准化的数据集,现有的研究通常采用公共数据集,通过手工制作的特征划分来模拟 vFL 设置,这给公平比较带来了挑战。 FedAds: 垂直联邦学习下的转化率估计基准 为了解决这一问题,我们引入了 FedAds,这是第一个用于隐私保护的 vFL 转化率估计基准,旨在促进 vFL 算法的标准化和系统化评估。FedAds 包含: FedAds 的主要贡献: FedAds 旨在为未来的 vFL 算法和 CVR 估计研究提供帮助。 FedAds 的主要组成部分: 提高 vFL 的有效性和隐私性 实验评估 我们对各种 vFL 模型进行了系统化的评估,包括有效性和隐私方面。 结论和未来工作 我们介绍了 FedAds,这是一个用于隐私保护的 CVR 估计的第一个基准,旨在促进 vFL 算法的系统化评估。FedAds 包含一个来自阿里巴巴广告平台的大规模真实世界数据集,以及对各种神经网络基于 vFL 算法的有效性和隐私方面的系统化评估。此外,我们探索了使用生成模型生成未对齐样本的特征表示来合并未对齐数据,以提高 vFL 的有效性。为了更好地保护隐私,我们还开发了基于混合和投影操作的扰动方法。实验表明,这些方法取得了合理的性能。 在未来的工作中,我们将探索以下方向: 参考文献: … Read more