MMLU:我们真的完成了它吗?

大型语言模型(LLM)的出现,标志着自然语言处理领域取得了重大进展,使我们能够通过自然语言与计算机进行交互。然而,这些模型的评估需要可靠的基准测试,而现有的基准测试却存在着不少问题。 MMLU:一个广受欢迎但存在问题的基准测试 MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)基准测试,因其涵盖了数学、历史、计算机科学、逻辑、法律等多个领域的知识而备受关注。然而,我们发现,尽管MMLU很受欢迎,但它存在着大量错误,这些错误会误导模型评估和比较。 MMLU中的错误:一个需要解决的问题 研究人员发现,MMLU中存在着各种各样的错误,从简单的解析和抓取错误,到更复杂的上下文、解释和数据集质量问题。例如,在病毒学子集中,57% 的问题都存在错误,其中一些错误甚至建议将美军派往西非以阻止埃博拉疫情的爆发。 MMLU-Redux:一个更可靠的基准测试 为了解决MMLU中存在的错误问题,研究人员手动分析了MMLU数据集,并创建了MMLU-Redux。MMLU-Redux 包含3000个经过手动重新标注的问题,涵盖了MMLU的30个子集。研究人员发现,MMLU-Redux 的结果与原始MMLU的评估结果存在显著差异,这表明MMLU中存在的错误对模型评估结果产生了重大影响。 MMLU-Redux:一个更可靠的基准测试 MMLU-Redux 的创建,为我们提供了重新评估LLM性能的工具。研究人员发现,在MMLU-Redux 上,一些LLM的性能表现与原始MMLU评估结果存在显著差异,这表明MMLU中的错误会影响模型的排名。 自动修复MMLU:一个挑战 研究人员还尝试了使用LLM自动修复MMLU中的错误。他们使用了多种方法,包括零样本提示、少样本提示、链式思维提示和检索增强生成。然而,即使是最先进的模型,在自动错误检测方面的表现仍然有限。 结论:MMLU需要改进 MMLU是一个重要的基准测试,但它存在着不少问题。MMLU-Redux 的出现,为我们提供了一个更可靠的基准测试。研究人员呼吁社区共同努力,改进MMLU,使其成为评估下一代LLM的可靠工具。 参考文献 [1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017). [2] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information … Read more

超越相似性:基于复合聚合的个性化联邦推荐

近年来,联邦推荐(FR)作为一种新兴的设备端学习范式,在学术界和工业界都引起了广泛关注。现有的联邦推荐方法通常采用不同的协同过滤模型作为本地模型,并通过各种聚合函数来获得一个全局推荐器,遵循基本的联邦学习(FL)原则。例如,一项开创性的工作是 FCF,它通过执行本地更新和使用联邦优化进行全局聚合,对集中式矩阵分解进行了改进。此外,FedNCF 将矩阵分解的线性与深度嵌入技术的非线性相结合,建立在 FCF 的基础之上。这些基于嵌入的联邦推荐模型有效地平衡了推荐准确性和隐私保护。 然而,现有的联邦推荐方法主要利用联邦视觉领域中发明的聚合函数来聚合来自相似客户端的参数,例如聚类聚合。尽管这些方法取得了相当大的性能,但我们认为直接将它们应用于联邦推荐并非最佳选择。这主要体现在模型结构的差异上。与联邦视觉中的卷积神经网络等结构化参数不同,联邦推荐模型通常采用一对一的项目嵌入表来进行区分。这种差异导致了嵌入偏差问题,即在聚合过程中不断更新已训练的嵌入,而忽略了未训练的嵌入,从而无法准确预测未来的项目。 为了解决这个问题,我们提出了一种基于复合聚合的个性化联邦推荐模型(FedCA),它不仅聚合了相似客户端以增强已训练的嵌入,还聚合了互补客户端以更新未训练的嵌入。此外,我们将整个学习过程转化为一个统一的优化算法,以共同学习相似性和互补性。在多个真实数据集上的大量实验证明了我们提出的模型的有效性。 嵌入偏差问题:联邦推荐的独特挑战 联邦推荐模型通常使用一个嵌入表来存储所有项目的表示,每个客户端只训练与自己交互过的项目的嵌入。当使用传统的相似性聚合方法时,会发生嵌入偏差问题:已训练过的项目的嵌入会不断得到优化,而未训练过的项目的嵌入则保持不变甚至退化。这导致模型在预测用户未来可能感兴趣的项目时,由于缺乏对未训练项目信息的了解,效果不佳。 FedCA:基于复合聚合的个性化联邦推荐 为了解决嵌入偏差问题,我们提出了 FedCA 模型,它采用了一种复合聚合机制,同时考虑了模型相似性和数据互补性。 FedCA 使用一个统一的优化框架来共同学习相似性和互补性。通过这种方式,FedCA 能够更有效地聚合项目嵌入,从而提高模型的预测准确性和泛化能力。 实验结果 我们对四个基准数据集进行了实验,包括 Movielens-100K、Filmtrust、Movielens-1M 和 Microlens-100K。实验结果表明,FedCA 在所有数据集上都优于其他基线模型,包括 FCF、FedAvg、PerFedRec、FedAtt、FedFast、pFedGraph 和 PFedRec。此外,我们还进行了消融实验,验证了模型相似性和数据互补性在 FedCA 中的有效性。 总结 本文首先重新思考了联邦视觉和联邦推荐任务之间的根本差异。具体来说,联邦视觉领域主要利用结构化参数(例如卷积神经网络)进行联邦优化,而联邦推荐任务主要采用一对一的项目嵌入表进行个性化推荐。这种关键差异导致了从联邦视觉领域借鉴的基于相似性的聚合方法在聚合嵌入表时无效,从而导致嵌入偏差问题。为了解决上述挑战,我们提出了一种专门针对联邦推荐任务的复合聚合机制。具体来说,通过在一个统一的优化框架内结合模型相似性和数据互补性,我们的方法增强了客户端已交互过的项目的训练嵌入,并优化了客户端未交互过的项目的非训练嵌入。这使得能够有效地预测未来的项目。此外,我们还探讨了近端项在联邦推荐任务中对个性化偏好的无效性,并提出了一种插值方法来缓解联邦推荐中的空间错位问题。 这项研究特别提出了一种很有前景的联邦推荐任务复合聚合框架。它是一个与模型无关的即插即用模块,可以无缝集成到主流联邦推荐模型中。然而,在这项工作中,我们需要手动调整相似性和互补性的权重分配。这些局限性可以通过在未来的研究中使用自动机器学习技术来自适应地学习权重分配来缓解。此外,探索更适合联邦推荐任务的模型相似性和数据互补性机制也是一个很有前景的研究方向。 参考文献 [1] Hongzhi Yin, Liang Qu, Tong Chen, Wei Yuan, Ruiqi Zheng, Jing Long, Xin Xia, Yuhui Shi, and Chengqi Zhang. On-device recommender systems: A … Read more

DJL Serving: 轻松部署你的深度学习模型

你是否还在为如何将训练好的深度学习模型部署到生产环境而烦恼?传统的部署方式往往需要复杂的配置和维护,而且难以扩展。现在,DJL Serving 为你提供了一个简单、高效、可扩展的解决方案! DJL Serving 是一个基于 DJL 的高性能通用模型服务解决方案,它可以将你的深度学习模型轻松部署为 HTTP 服务,方便其他应用程序调用。 DJL Serving 的优势 安装 DJL Serving 你可以通过以下方式安装 DJL Serving: 使用 DJL Serving DJL Serving 可以通过命令行启动,并提供 RESTful API 用于模型推理和管理。 启动 DJL Serving: REST API: 默认情况下,DJL Serving 监听端口 8080,仅允许本地访问。你可以修改配置文件以允许远程访问。 扩展 DJL Serving DJL Serving 支持插件机制,你可以开发自己的插件来扩展功能。 总结 DJL Serving 是一个强大的模型服务解决方案,它能够帮助你轻松部署和管理深度学习模型,并提供高性能和可扩展性。无论你是初学者还是经验丰富的开发者,DJL Serving 都能满足你的需求。 更多信息: DJL Serving 架构揭秘:模型服务背后的秘密 DJL Serving … Read more

用Java玩转深度学习:DJL实战指南

深度学习模型大多用Python开发,而服务端却多用Java,导致许多开发者不得不使用Java调用Python接口,效率低下且不够优雅。更糟糕的是,如果想在Android上进行推理,就必须使用Java。 别担心!现在,我们可以用Java直接进行深度学习了!DJL(Deep Java Library)是一个强大的开源深度学习框架,它支持模型构建、训练、推理,甚至在Android上运行。本文将带你深入了解DJL,并通过一个实战案例,教你用Java加载PyTorch模型进行图片分类。 DJL:Java深度学习的利器 DJL 的出现,为Java开发者打开了深度学习的大门。它提供了一套简洁易用的API,让Java开发者能够轻松地构建、训练和部署深度学习模型。 DJL 的优势: DJL 核心 API 解密 DJL 的核心 API 包括 Criteria、Translator 和 NDArray,它们共同构成了深度学习模型的构建和操作基础。 1. Criteria:模型的定义 Criteria 类对象定义了模型的属性,例如模型路径、输入和输出类型等。 这段代码定义了一个名为 “resnet50” 的模型,并加载了它。 2. Translator:数据转换桥梁 Translator 接口定义了如何将自定义的输入输出类转换为 Tensor 类型。 Translator 接口包含两个方法: 3. NDArray:Tensor 操作的利器 NDArray 类类似于 Python 中的 NumPy 数组,它提供了丰富的 Tensor 操作功能。 DJL 提供了多种 NDArray 操作,例如: 实战:用 DJL 加载 PyTorch 模型进行图片分类 … Read more

FedMoE:数据级个性化与混合专家,助力模型异构个性化联邦学习

近年来,大型语言模型(LLM)的快速发展,如 ChatGPT 和 AIGC,让人们看到了人工智能的巨大潜力。然而,为了训练这些模型,需要收集海量数据,这引发了人们对数据隐私的担忧。联邦学习 (FL) 应运而生,它是一种分布式机器学习范式,允许多个客户端在不共享数据的情况下协作训练共享模型,有效地保护了数据隐私。 传统的联邦学习算法,例如 FedAvg,要求所有客户端和服务器都使用相同结构的模型,即模型同质性。然而,现实世界中的数据和模型往往存在异构性,这给传统的联邦学习算法带来了挑战。例如,来自不同客户端的去中心化数据通常是非独立且相同分布的(Non-IID),即数据或统计异质性。此外,客户端可能拥有不同的系统配置和计算能力,即系统异构性。更重要的是,不同机构或企业可能拥有不同的私有模型库,即模型异构性,他们希望在不暴露模型结构的情况下进行协作训练。 为了应对这些挑战,模型异构个性化联邦学习 (MHPFL) 应运而生。MHPFL 允许客户端训练个性化和异构的局部模型,以适应本地数据分布、系统资源和模型结构,为联邦学习开辟了新的道路。 现有的 MHPFL 方法主要分为三个分支:基于知识蒸馏的 MHPFL,基于模型混搭的 MHPFL,以及基于互学习的 MHPFL。然而,这些方法都存在一些局限性。例如,基于知识蒸馏的方法需要额外的公共数据集,这在实际应用中难以获得。基于模型混搭的方法只共享同质部分,可能导致性能瓶颈和模型结构暴露。基于互学习的方法则会增加客户端的计算负担。 为了解决这些问题,本文提出了一种新的模型异构个性化 Fed 学习算法——FedMoE。FedMoE 借鉴了混合专家 (MoE) 的思想,为每个客户端的本地异构大型模型分配一个共享的同构小特征提取器和一个本地门控网络。 FedMoE 的工作原理 FedMoE 的核心思想是将本地异构模型的特征提取器视为个性化特征提取的局部专家,而共享的同构小特征提取器视为广义特征提取的全局专家。本地门控网络则根据每个数据样本的特征,为这两个专家提取的特征生成个性化权重。这三个模型共同构成了一个局部异构 MoE。 具体来说,FedMoE 的工作流程如下: FedMoE 的优势: 实验结果 本文在 CIFAR-10 和 CIFAR-100 数据集上进行了大量实验,结果表明: 总结 FedMoE 是一种新颖的模型异构个性化 Fed 学习算法,它通过数据级个性化和混合专家机制,有效地解决了模型异构个性化联邦学习中的数据异构性、系统异构性和模型异构性问题。FedMoE 具有更高的模型性能、更低的计算成本和可接受的通信成本,为联邦学习在实际应用中的推广提供了新的思路。

个性化联邦学习的新突破:DA-PFL 算法

个性化联邦学习(PFL)是近年来人工智能领域的一大热门话题,它能够在保护用户隐私的前提下,为每个用户学习个性化的模型。现有的大多数 PFL 模型都倾向于将数据分布相似的用户聚合在一起,以提升模型性能。然而,这种基于相似性的聚合策略可能会加剧类不平衡问题,导致模型对某些类别样本的预测效果不佳。 为了解决这个问题,来自哈尔滨工业大学(深圳)的研究团队提出了一种全新的个性化联邦学习模型——DA-PFL,它利用动态亲和聚合策略来缓解类不平衡问题。 DA-PFL 的核心思想:互补性而非相似性 DA-PFL 的核心思想是,将用户数据分布的互补性作为聚合策略的依据,而不是仅仅考虑相似性。换句话说,DA-PFL 倾向于将数据分布互补的用户聚合在一起,以平衡不同类别样本的数量,从而降低类不平衡的风险。 为了实现这一目标,研究团队提出了一种新的亲和度指标,它能够有效地反映用户之间类分布的互补关系。这个指标综合考虑了用户数据中各个类别的样本数量和类别索引号,并通过一个扩展的调整后的余弦相似度来计算。 动态亲和聚合:灵活选择和聚合 DA-PFL 采用了一种动态亲和聚合策略,根据每轮的亲和度指标,动态地选择和聚合用户模型。这种动态的策略能够在每一轮训练中,根据用户模型参数和亲和度指标,为每个用户生成一个独特的基于亲和力的聚合模型。 具体来说,DA-PFL 使用一个负指数项来衡量不同用户模型参数之间的非线性差异,并通过亲和度指标进行加权,从而使每个用户的聚合模型更加关注具有互补数据分布的用户模型。 实验结果:显著提升模型性能 研究团队在三个真实世界的数据集(CIFAR10、CIFAR100 和 FEMNIST)上对 DA-PFL 进行了评估,并将其与九种最先进的个性化联邦学习方法进行了比较。实验结果表明,DA-PFL 在不同客户端数量和不同不平衡分布下都取得了最佳的性能,显著提升了每个用户的模型精度。 例如,在 CIFAR100 数据集上,当客户端数量为 20 且类分布高度不平衡时,DA-PFL 的精度比最佳的比较方法 FedProx 高出 16.44%。在 FEMNIST 数据集上,DA-PFL 的精度比最佳的比较方法 IFCA 高出 15.37%。 此外,研究团队还对 DA-PFL 的各个组件进行了消融实验,结果表明,亲和度指标和动态聚合策略都对模型性能的提升起着至关重要的作用。 DA-PFL 的优势: 总结 DA-PFL 算法为个性化联邦学习提供了一种新的解决方案,它能够有效地缓解类不平衡问题,并显著提升模型性能。这项研究为未来个性化联邦学习的研究提供了新的思路和方向。 参考文献 [1] Xu Yang, Jiyuan Feng, Songyue Guo, Ye Wang, … Read more

RWKV 的新架构:Eagle 和 Finch,矩阵值状态与动态递归

2024 年 4 月 9 日,RWKV Foundation 发布了 RWKV 新架构的最新论文 ——《Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence》,论文由 Bo PENG 和 RWKV 开源社区成员共同完成。 论文地址:https://arxiv.org/abs/2404.05892 论文内容摘要 论文提出了两种新的 RWKV 架构:Eagle (RWKV-5) 和 Finch (RWKV-6),这两种序列模型在 RWKV-4 架构的基础上进行了改进。 对比 RWKV-4 , 新 RWKV 架构的改进包括 多头矩阵值状态(multi-headed matrix-valued states) 和 动态递归机制(dynamic recurrence mechanism),这些改进提高了 RWKV 模型的表达能力,同时保持 RNN 的推理效率特征。 新的 RWKV … Read more

网购平台的个性化推荐:如何让“心仪”商品自动送上门?

在快节奏的现代社会,人们越来越依赖互联网来获取信息和服务。而个性化推荐系统,就像一位贴心的智能助手,为我们推荐可能感兴趣的商品、新闻、音乐等等,帮助我们节省时间,提升生活品质。 在电商平台上,个性化推荐系统更是不可或缺的一部分。它可以根据用户的浏览记录、购买历史等数据,为用户推荐可能感兴趣的商品,从而提高用户粘性和转化率。 推荐算法:三驾马车,各有所长 目前,主流的推荐算法主要分为三种:基于内容的推荐算法、协同过滤算法和混合推荐算法。 基于内容的推荐算法,顾名思义,就是根据用户过去喜欢的商品内容,例如商品的品牌、类别、功能等,来推荐相似的商品。这种算法简单直观,但容易陷入“信息茧房”,导致推荐结果过于单一,缺乏新意。 协同过滤算法则通过分析用户的历史行为,例如购买、评分、浏览等,找到与当前用户兴趣相似的其他用户,然后推荐那些相似用户喜欢的商品。这种算法可以发现用户的潜在兴趣,推荐结果更具多样性,但存在数据稀疏性和可扩展性问题,难以处理新用户和冷门商品。 混合推荐算法则将基于内容的推荐算法和协同过滤算法的优点结合起来,弥补各自的不足,从而提供更精准、更全面的推荐服务。 混合推荐算法:双管齐下,精准推荐 本文将重点介绍一种混合推荐算法,它利用基于内容的推荐算法挖掘用户的已有兴趣,再结合协同过滤算法建立用户潜在兴趣模型,将已有兴趣和潜在兴趣融合,最终生成推荐列表。 1. 用户已有兴趣模型的设计: 基于用户过去的搜索内容,我们可以建立一个用户已有兴趣模型。通常使用 TF-IDF 技术来衡量词语的重要性。TF-IDF 通过词频和逆文档频率来计算词语的权重,可以有效地识别出用户感兴趣的关键词。 2. 用户潜在兴趣模型的设计: 用户潜在兴趣无法直接从过去的搜索记录中获取。本文提出利用协同过滤算法来解决这个问题。 协同过滤算法的核心是找到与当前用户兴趣相似的其他用户,并推荐那些相似用户喜欢的商品。为了提高效率,我们可以通过计算不同用户搜索内容的相似度来找到相似用户。 3. 混合推荐算法模型的设计: 将用户已有兴趣模型和潜在兴趣模型融合,并根据一定的规则计算与候选推荐商品的相似度,最终生成推荐列表。 实验结果与分析:混合推荐算法的优势 通过实验数据分析,我们可以发现,本文介绍的混合推荐算法在推荐准确率、覆盖率和F值方面都优于传统的基于内容的推荐算法和协同过滤算法。此外,该算法还避免了冷启动问题,可以更好地处理新用户和冷门商品。 展望:未来推荐系统的挑战与机遇 尽管推荐系统已经取得了显著的成果,但仍面临着一些挑战,例如如何提取准确的用户偏好和商品特征、如何进行多维度的推荐、如何保障推荐系统的安全性等等。相信随着社会发展和科技进步,推荐系统研究会更加深入,为人们的生活带来更多便利和惊喜。 参考文献: [1] L.Y. Zhang, “Analysis on the development of “Internet +” E-commerce,” Modern Marketing (late issue), vol. 14, no. 3, pp. 164, 2018. [2] Q. Zhang and Y. Zhang, … Read more

超越相似性:基于复合聚合的个性化联邦推荐

引言 联邦推荐 (FR) 作为一种新兴的设备端学习范式,在学术界和工业界都引起了广泛的关注。现有的联邦推荐系统通常采用不同的协同过滤模型作为本地模型,并使用各种聚合函数来获得全局推荐器,遵循基本的联邦学习 (FL) 原则。例如,一项开创性的工作是 FCF,它通过执行本地更新和使用联邦优化进行全局聚合来适应中心化的矩阵分解。此外,FedNCF 将矩阵分解的线性与深度嵌入技术的非线性相结合,建立在 FCF 的基础之上。这些基于嵌入的联邦推荐模型有效地平衡了推荐准确性和隐私保护。 挑战:嵌入偏差问题 FR 的成功归功于它们能够通过聚合函数来体现数据局部性,同时跨多个客户端实现知识的全局性。这些函数在联邦优化过程中起着至关重要的作用,决定了从每个客户端获取哪些知识以及将这些知识整合到全局模型的程度。其中最著名的方法是 FedAvg,它为拥有更多数据样本的客户端分配更大的权重,以实现加权聚合,从而优化全局模型。后续工作旨在改进聚合策略,以解决联邦环境中的数据异质性挑战。例如,PerFedRec 首先利用聚类来识别具有相似数据分布的客户端,然后进行组内聚合以实现自适应。此外,FedAtt 通过计算本地模型和全局模型之间的相似性来分配不同客户端的注意力系数,从而实现个性化的联邦优化。以上聚合方法通过考虑细粒度的相似性有效地缓解了异质性挑战。 然而,FR 中使用的这些聚合函数主要受到联邦视觉领域中使用的函数的启发,例如加权聚合、聚类聚合和注意力聚合。所有这些本质上都基于相似性假设,即相似的客户端被分配更多权重,而不同的客户端被分配相对较小的权重。尽管取得了令人满意的性能,但我们认为,直接从联邦视觉领域采用现成的聚合函数可能不适合 FR 任务,因为 FR 任务天生就表现出显著的异质性,并且每个客户端都高度需要个性化偏好。 问题根源:模型架构差异 这种研究差距的主要原因反映在模型架构的差异上。与联邦视觉模型(例如卷积神经网络)不同,联邦视觉模型通常具有深度网络结构(又称结构化参数),联邦推荐模型通常通过使用一对一的项目嵌入表来区分自身。由于不同的客户端可能涉及不同的交互项目子集,导致每个客户端的嵌入表中训练了不同的行。当仅依靠相似性聚合时,会导致 FR 中独特的嵌入偏差问题,即训练的嵌入(蓝色)持续改进,而未训练的嵌入(灰色)在聚合过程中保持不变甚至恶化,如图 1(a)所示。因此,仅通过相似性聚合来预测本地设备上的未交互项目是一个巨大的挑战。 解决方案:复合聚合机制 为了解决嵌入偏差问题,本文提出了一种针对 FR 模型的复合聚合机制,它不仅聚合相似的客户端,还聚合互补的客户端。这种机制可以增强已经训练的嵌入,并更新未训练的嵌入,从而增强在边缘设备上预测未来项目的能力,如图 1(b)所示。此外,我们将聚合过程公式化为一个统一的优化算法,以共同学习相似性和互补性。在多个真实世界数据集上的大量实验表明,我们的模型始终优于几种最先进的方法。 模型架构:FedCA FedCA 模型采用了一种统一的学习框架,该框架针对 FR 任务,优化每个客户端的个性化本地参数 {pu, Qu} 和聚合权重向量 {wu}。该框架受到相似性和互补性的联合约束的影响。 服务器聚合 服务器的职责是优化每个客户端 u 的聚合权重 wu,从而为每个客户端实现个性化的全局聚合。理想情况下,我们希望 wu 在等式 (3) 中的损失函数下得到完美优化。然而,由于联邦环境的限制,这是不切实际的。服务器只能访问每个客户端上传的本地模型 Qu,而不知道每个客户端的用户信息嵌入 pu 和本地数据 Du,因此难以直接在服务器端计算 Lu。为了合理地感知每个客户端的初始贡献,我们利用 … Read more

FedAds: 隐私保护下的转化率估计新基准

近年来,越来越多的网络应用开始使用机器学习模型来提供个性化的服务,满足用户的偏好。转化率 (CVR) 估计是在线推荐和广告系统中的一个基础模块,其目标是在用户点击广告后预测其转化事件(例如,电商广告中的购买行为)的概率。CVR 估计在候选排名和广告竞价策略中起着至关重要的作用。 数据隐私的挑战 在线广告中,用户在发布商页面浏览广告并点击后,会跳转到广告落地页。用户在落地页上的后续行为,包括转化决策,会被收集起来。发布商拥有用户的浏览兴趣和点击反馈,而需求方广告平台则收集用户的点击后行为,例如停留时间和转化决策。为了准确地估计 CVR 并更好地保护数据隐私,垂直联邦学习 (vFL) [35, 40] 成为了一种自然解决方案,它能够在不交换原始数据的情况下,结合两者的优势来训练模型。 然而,目前缺乏标准化的数据集和系统化的评估方法。由于缺乏标准化的数据集,现有的研究通常采用公共数据集,通过手工制作的特征划分来模拟 vFL 设置,这给公平比较带来了挑战。 FedAds: 垂直联邦学习下的转化率估计基准 为了解决这一问题,我们引入了 FedAds,这是第一个用于隐私保护的 vFL 转化率估计基准,旨在促进 vFL 算法的标准化和系统化评估。FedAds 包含: FedAds 的主要贡献: FedAds 旨在为未来的 vFL 算法和 CVR 估计研究提供帮助。 FedAds 的主要组成部分: 提高 vFL 的有效性和隐私性 实验评估 我们对各种 vFL 模型进行了系统化的评估,包括有效性和隐私方面。 结论和未来工作 我们介绍了 FedAds,这是一个用于隐私保护的 CVR 估计的第一个基准,旨在促进 vFL 算法的系统化评估。FedAds 包含一个来自阿里巴巴广告平台的大规模真实世界数据集,以及对各种神经网络基于 vFL 算法的有效性和隐私方面的系统化评估。此外,我们探索了使用生成模型生成未对齐样本的特征表示来合并未对齐数据,以提高 vFL 的有效性。为了更好地保护隐私,我们还开发了基于混合和投影操作的扰动方法。实验表明,这些方法取得了合理的性能。 在未来的工作中,我们将探索以下方向: 参考文献: … Read more