对话系统的新纪元:如何评估大型语言模型驱动的聊天机器人?

随着大型语言模型(LLM)的迅速发展,以LLM为基础的对话系统(例如聊天机器人)在近几年取得了惊人的进步。然而,这些系统也带来了新的挑战,它们可能对用户和社会产生负面影响。因此,建立一个有效的评估框架,及时发现这些潜在的负面影响,并量化其积极影响,变得至关重要。 评估框架的六大要素 一个理想的评估框架至少应该满足以下六个要素: SWAN框架:基于片段的评估方法 为了满足上述要求,本文提出了一个名为SWAN(Schematised Weighted Average Nugget,模式化加权平均片段分数)的评估框架,该框架主要包含以下特点: 片段权重 片段权重类似于信息检索指标(如nDCG)中的基于排名的衰减,但片段权重不一定随着片段位置的增加而单调递减。例如,基于S-measure的线性衰减函数假设片段的实际价值随着对话的进行而降低(即更快满足信息需求的较短对话会获得更高的奖励),而另一种方法则是只对来自对话最后一轮的片段赋予正权重,以模拟近因效应。锚定效应等因素也可以被纳入考虑,即“迄今为止看到的片段”会影响当前片段的权重。 SWAN分数 SWAN分数可以定义为: 其中,C表示评估标准的集合(即模式),CWc表示标准c的权重,Uc表示从对话样本中提取的关于标准c的片段集合,WANc(Uc)表示标准c的加权平均片段分数。 二十个评估标准 本文提出了二十个评估标准,可以作为SWAN框架的插件,这些标准涵盖了对话系统各个方面的评估,例如: 总结 本文介绍了用于评估对话系统的SWAN框架,该框架可以用于面向任务的对话和非面向任务的对话。此外,本文还提出了二十个评估标准,可以作为SWAN框架的插件。未来,我们将设计适合各种标准的对话采样方法,构建用于比较多个系统的种子用户回复,并验证SWAN的特定实例,以防止对话系统对用户和社会造成负面影响。 参考文献 [1] Marco Alessio, Guglielmo Faggioli, and Nicola Ferro. 2023. DECAF: a Modular and Extensible Conversational Search Framework. In SIGIR ’23: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (Taipei, Taiwan). … Read more

联邦推荐系统中的视觉信息安全:攻击与防御

近年来,联邦推荐系统(FedRecs)因其保护用户数据隐私的能力而备受关注。在FedRecs中,中心服务器通过与客户端共享模型公共参数来协同学习推荐模型,从而提供一种隐私保护解决方案。然而,模型参数的暴露为攻击者操纵FedRecs留下了后门。 现有的FedRec安全研究已经表明,恶意用户可以通过模型中毒攻击轻松地提升商品排名,但这些研究主要集中在仅使用协同信息(即用户-商品交互)的FedRecs上。我们认为,这些攻击之所以有效,是因为协同信号的数据稀疏性。在实际应用中,辅助信息,例如商品的视觉描述,被用来缓解协同过滤数据的稀疏性。因此,在FedRecs中加入视觉信息后,所有现有的模型中毒攻击的有效性都变得值得怀疑。本文通过大量实验验证了加入视觉信息可以在合理场景下抵御现有最先进的攻击。 然而,由于视觉信息通常来自外部来源,简单地将其纳入可能会带来新的安全问题。具体来说,我们针对视觉感知FedRecs提出了一种新型中毒攻击,即图像中毒攻击,攻击者可以逐步修改上传的图像,以在FedRecs的训练过程中操纵商品排名。此外,我们还发现,图像中毒攻击和模型中毒攻击之间的潜在协同作用将使视觉感知FedRecs更容易受到操纵。 为了安全地使用视觉信息,我们在视觉感知FedRecs中使用扩散模型来净化每个上传的图像并检测对抗性图像。在两个数据集上对两个FedRecs进行的大量实验表明了我们提出的攻击和防御方法的有效性和泛化能力。 视觉感知联邦推荐系统的攻击 现有的模型中毒攻击主要针对的是仅使用协同信息的FedRecs。然而,当FedRecs中加入了视觉信息后,这些攻击的有效性会受到影响。这是因为视觉信息可以缓解协同信息的数据稀疏性问题,使得商品特征更加全面和稳健。 为了验证这一观点,我们对两种FedRecs进行了实验:一种是仅使用协同信息的FedRecs,另一种是加入了视觉信息的FedRecs。实验结果表明,现有的模型中毒攻击在加入了视觉信息的FedRecs中变得无效。 然而,视觉信息的加入也带来了新的安全风险。攻击者可以通过修改上传的商品图像来操纵商品排名,这就是我们提出的图像中毒攻击。图像中毒攻击可以与模型中毒攻击协同进行,对FedRecs造成更大的威胁。 图像中毒攻击的防御 为了应对图像中毒攻击,我们提出了一种基于扩散模型的防御机制,称为“引导扩散模型用于净化和检测”(GDMPD)。GDMPD可以实现两个功能:净化和检测。 净化功能旨在防止对抗性图像达到其恶意目的。具体来说,净化基于DDPM,包括两个过程:扩散过程和逆过程。在扩散过程中,模型逐渐向图像添加噪声,这可以淹没对抗性扰动。然后,逆过程净化这些噪声以恢复图像,这可以去除添加的噪声和对抗性扰动。 检测功能旨在进一步指示哪个图像具有对抗性。GDMPD通过比较净化前后图像的特征向量来判断图像是否具有对抗性。 实验结果 我们对两个数据集(MovieLens-1M和Amazon Cell Phone)上的两个FedRecs进行了大量实验,验证了我们提出的攻击和防御方法的有效性。实验结果表明,加入视觉信息可以提高FedRecs对模型中毒攻击的鲁棒性,但简单地使用来自不可信来源的视觉信息会为图像中毒攻击留下后门。我们的GDMPD防御方法可以有效地修复这个安全漏洞。 结论 本文研究了视觉感知联邦推荐系统中的安全问题,提出了一种新型的图像中毒攻击,并设计了一种基于扩散模型的防御机制。我们的研究结果表明,视觉信息可以提高FedRecs对模型中毒攻击的鲁棒性,但同时也带来了新的安全风险。为了安全地使用视觉信息,我们需要采取有效的防御措施,例如GDMPD。 参考文献 [1] Wei Yuan, Shilong Yuan, Chaoqun Yang, Quoc Viet Hung Nguyen, and Hongzhi Yin. 2018. Manipulating Visually-aware Federated Recommender Systems and Its Countermeasures. ACM Transactions on Information Systems 1, 1, Article 1 (August 2018), 25 pages.

对话式推荐系统:让AI更懂你的心

你是否曾厌倦了推荐系统千篇一律的推荐?你是否想要一个更智能、更人性化的推荐系统,能够理解你的喜好,并根据你的需求提供个性化的推荐?对话式推荐系统 (Conversational Recommender System, CRS) 正是应运而生的新一代推荐系统,它通过与用户进行实时多轮对话,来更好地理解用户需求,并提供更精准、更透明的推荐。 近年来,大型语言模型 (Large Language Model, LLM) 的快速发展为对话式推荐系统带来了新的机遇。LLM 能够以自然流畅的方式与用户进行对话,并利用其丰富的知识储备和常识推理能力,为用户提供更人性化的推荐体验。 对话式推荐系统:推荐的未来 传统的推荐系统通常依赖于用户过去的点击行为或评分数据来推断用户的偏好,并根据这些数据进行推荐。然而,这种基于隐式交互信号的推荐方法存在着一些弊端,例如容易出现点击诱饵,以及传播社会偏见等问题。 对话式推荐系统则为用户提供了更灵活的表达方式,用户可以主动与系统进行对话,表达自己的喜好和需求,并根据系统的反馈不断调整自己的选择。这种交互方式不仅能够帮助用户更准确地找到自己想要的内容,还能有效地避免传统推荐系统中存在的弊端。 LLM赋能:对话式推荐系统的核心 大型语言模型 (LLM) 在对话式推荐系统中扮演着至关重要的角色。它能够理解用户的自然语言输入,并根据对话内容推断用户的偏好和意图,从而生成更精准的推荐。同时,LLM 还能够利用其丰富的知识储备和常识推理能力,为用户提供更详细的推荐解释,帮助用户更好地理解推荐结果。 RecLLM:面向YouTube视频的对话式推荐系统 本文介绍了 RecLLM,一个基于 LaMDA 的面向YouTube视频的对话式推荐系统。RecLLM 利用LLM的强大能力,实现了多种对话式推荐功能,例如: 挑战与展望 虽然对话式推荐系统拥有巨大的潜力,但也面临着一些挑战,例如: 未来,对话式推荐系统将继续发展,并与其他技术融合,例如多模态技术、知识图谱等,为用户提供更智能、更人性化的推荐体验。 参考文献 [1] Luke Friedman, Sameer Ahuja, David Allen, Zhenning Tan, Hakim Sidahmed, Changbo Long, Jun Xie, Gabriel Schubiner, Ajay Patel, Harsh Lara, Brian Chu, Zexi … Read more

AI 助力教育:用预训练语言模型生成高质量的教育问题

近年来,在线教育资源如雨后春笋般涌现,但这些资源往往缺乏配套的测试题,无法有效地帮助学生进行自测和评估学习成果。如何大规模地生成高质量的教育问题,成为了在线教育发展的重要课题。 本文将介绍一项名为 EduQG 的新方法,它通过对预训练语言模型进行微调,可以有效地生成高质量的教育问题,为在线教育的规模化发展提供助力。 预训练语言模型:教育问题生成的新引擎 预训练语言模型 (PLM) 在自然语言处理领域取得了重大突破,它们通过学习海量文本数据,获得了强大的语言理解和生成能力。近年来,研究人员开始探索将 PLM 应用于教育问题生成领域,取得了一些成果。 现有的研究表明,通过对 PLM 进行微调,可以使其生成高质量的教育问题。然而,这些方法往往依赖于特定领域的训练数据,难以实现大规模的应用。 EduQG:面向教育的预训练语言模型 为了解决这一问题,研究人员开发了 EduQG 模型,它通过以下步骤来生成高质量的教育问题: EduQG 的优势 实验结果表明,EduQG 模型在生成科学问题方面表现出色,其优势主要体现在以下几个方面: 未来展望 EduQG 模型的出现为在线教育的发展带来了新的希望。未来,研究人员将继续探索如何进一步提高 EduQG 模型的性能,使其能够生成更加多样化、更具挑战性的教育问题,为个性化学习提供更强大的支持。 参考文献: [1] Bulathwela, S., Muse, H., & Yilmaz, E. (2023). Scalable Educational Question Generation with Pre-trained Language Models. arXiv preprint arXiv:2305.07871.[2] Brown, T., Mann, B., Ryder, N., Subbiah, M., … Read more

个性化推荐的联邦学习新思路:基于图引导的个性化框架

在信息爆炸的时代,推荐系统成为了我们生活中不可或缺的一部分,帮助我们从海量信息中筛选出感兴趣的内容。然而,传统的推荐系统往往需要收集用户的全部行为数据,这不仅存在隐私泄露的风险,也引发了人们对数据安全的担忧。为了解决这一问题,联邦推荐应运而生。 联邦推荐是一种新的服务架构,它可以在不将用户数据共享给服务器的情况下提供个性化的推荐服务。现有的联邦推荐方法通常在每个用户的设备上部署一个推荐模型,并通过同步和聚合物品嵌入来协调模型的训练。然而,这些方法忽略了用户之间存在着不同的偏好,简单地将所有用户的物品嵌入进行平均聚合,会导致聚合后的嵌入信息量减少,影响个性化推荐的效果。 图引导的个性化框架:GPFedRec 为了解决这一问题,本文提出了一种新颖的 图引导的个性化框架(GPFedRec),用于联邦推荐。GPFedRec 通过利用一个自适应的图结构来捕捉用户偏好的相关性,从而增强了不同用户之间的协作。此外,GPFedRec 将每个用户的模型训练过程整合到一个统一的联邦优化框架中,使得模型能够同时利用共享的和个性化的用户偏好。 GPFedRec 的核心思想 GPFedRec 的核心思想是基于用户之间偏好的相似性构建一个用户关系图。在每个训练轮次中,服务器首先从用户设备收集本地训练的物品嵌入,然后利用图引导的聚合机制更新物品嵌入,从而获得每个用户的个性化物品嵌入。同时,服务器还会根据所有用户的个性化物品嵌入计算一个全局共享的物品嵌入,代表着所有用户的共同偏好。最后,服务器将个性化物品嵌入和全局共享的物品嵌入分别发送给用户设备,用于指导本地模型的训练。 GPFedRec 的优势 实验结果 在五个基准数据集上的实验结果表明,GPFedRec 在提供个性化推荐方面取得了显著的性能提升,超越了现有的联邦推荐方法和集中式推荐方法。此外,实验还验证了 GPFedRec 的鲁棒性和可扩展性。 总结 GPFedRec 是一种新颖的联邦推荐框架,它通过图引导的个性化机制,有效地捕捉了用户偏好的相关性,并增强了用户之间的协作。GPFedRec 在提供个性化推荐方面取得了显著的性能提升,并具有良好的隐私保护能力。 参考文献 [1] Chunxu Zhang, Guodong Long, Tianyi Zhou, Peng Yan, Zijian Zhang, and Bo Yang. 2023. Graph-guided Personalization for Federated Recommendation. In Proceedings of ACM Conference (Conference’17). ACM, New York, NY, USA, 11 … Read more

探索的长期价值:神经线性老虎机的实践

神经线性老虎机 (NLB) 虽然简单,但直接将其融入工业训练和服务流程中却面临着挑战,主要体现在三个方面: 实验 我们在大型短视频推荐平台上进行了一系列在线 A/B 测试,以评估基于神经线性老虎机的排名系统的性能。我们还检查了不确定性测量的属性和可靠性。 我们首先在控制组和处理组上运行了 0.3% 的流量的用户分流 A/B 测试,持续六周,以观察用户指标。控制组是生产中的原始排名模型,处理组是利用神经线性老虎机的基于探索的排名系统。对于 NLB,如 5.2 节所述,我们在流式方式中更新协方差矩阵,而精度矩阵 Σ† 则在每次训练运行时离线更新,以与训练管道保持一致。为了确保矩阵求逆的稳定性,我们将正则化超参数设置为 ϵ=1e−6 (公式 4)。为了选择噪声参数 σ2,我们计算了 5 个不同训练模型的集合的不确定性(作为一种昂贵的真实值测量),并选择了常数超参数 σ2=10,使得从集合和神经线性老虎机获得的不确定性大致处于同一数量级。 神经线性老虎机的表现:内容新鲜度和用户满意度 直观地,基于不确定性的探索系统(例如 NLB)会更多地暴露新鲜和尾部内容,这会改变整体内容语料库分布,并从这些区域获取有价值的学习信号,进而转化为用户参与度的提升。 表 2 报告了在不同时间段内发布的新鲜内容上的正向交互次数增加。标题行中的时间区间(例如 1 小时)根据不同的新鲜度级别对内容进行分组。不同新鲜度级别内容上正向交互次数的显著增加证明了探索可以帮助系统有效地探索新鲜内容,并获取有价值的学习信号。有趣的是,我们还看到满意的每日活跃用户数量随着时间的推移而稳定增加,如图 8 所示。我们推测这种提升可能来自以下两个方面。首先,系统帮助用户发现新颖的兴趣,因为我们还看到用户在提供正向交互的独特主题数量上增加了 +1.25%。同时,用户更喜欢在专门针对短视频内容的特定表面上看到新鲜内容。 不确定性估计的属性和可靠性 神经线性老虎机中的关键组成部分之一是二次不确定性项,它捕捉了不同 (𝐮,𝐚) 对的探索项的强度。虽然在理论上可以量化,但可视化不确定性在不同用户和内容类型之间如何变化仍然是一个有趣的问题。为了检查这一点,我们选择了三个代表性特征,其中两个捕捉内容属性:1) 内容发布时间以来的天数(即内容年龄);2) 终身正向交互次数(即内容流行度);以及一个捕捉用户属性的特征:3) 用户在平台上提供的总交互次数(即用户活跃度)。 我们使用斯皮尔曼秩相关系数来衡量这些特征与神经线性老虎机计算的不确定性项之间的关系,该系数评估了两个变量之间的单调关系。表 3 报告了所选三个特征与神经线性老虎机计算的不确定性之间的斯皮尔曼秩相关系数。有趣的是,可以观察到,当前系统对于新鲜和不太流行的内容更加不确定,而对于不同活跃度级别的用户则或多或少保持中立。此外,我们计算了特征与从集合模型获得的不确定性之间的斯皮尔曼秩相关性,结果表明内容特征为 -0.3,用户特征为 0。这些结果与从神经线性老虎机计算的结果相似,表明了不确定性估计的可靠性。 神经线性老虎机对语料库指标变化的影响 为了检查神经线性老虎机的探索能力,即它如何使内容语料库的大小受益,我们执行了 5% 的用户-语料库-协同分流实验,将 5% 的语料库和用户分别分流到控制组和处理组。对于基于神经线性老虎机的基于探索的排名系统,我们看到 Discoverable Corpus … Read more

探索的长期价值:衡量、发现和算法

推荐系统已经成为人们日常生活中不可或缺的一部分,为用户提供推荐平台上的相关内容。许多系统被训练来预测和利用用户对推荐的即时反应,例如点击、停留时间和购买,在个性化方面取得了巨大成功(Sarwar 等人,2001;Koren 等人,2009;Covington 等人,2016;Zhang 等人,2019)。然而,这些基于利用的系统被称为会受到闭环反馈效应的影响(Jiang 等人,2019;Jadidinejad 等人,2020),在这种效应中,推荐系统和用户相互强化彼此的选择。用户被推荐的项目所吸引,只对所选项目提供反馈;系统利用有偏差的反馈数据进行训练,进一步巩固和强化用户配置文件,使其更倾向于之前与之交互的内容。结果,用户越来越局限于更狭窄的内容集,而平台上的许多内容仍然未被发现。 探索是打破这种反馈循环的关键。通过向用户展示不太确定的内容(Jadidinejad 等人,2020;Chen 等人,2021),它主动获取有关未知用户内容对的未来学习信号,以填补系统中的知识空白。这样做,探索可以向用户介绍新颖的内容,我们称之为用户探索(Chen 等人,2021;Song 等人,2022;Schnabel 等人,2018);它还可以使更多新鲜和尾部内容(以及内容提供者)在平台上可发现,我们称之为项目探索(Chen,2021;Aharon 等人,2015)。我们将重点讨论项目探索。 虽然有效的探索技术(Li 等人,2010;Agarwal 等人,2014;Silver 等人,2016;Chen 等人,2019)在老虎机和强化学习文献中得到了积极的研究,但在现实世界工业系统中部署它们已被证明很困难。主要挑战在于衡量(Chen,2021)探索的确切益处,这将作为从纯粹基于利用的系统转向基于探索的系统的具体和可衡量的证据。虽然探索技术如上限置信区间(Auer 等人,2002;Chu 等人,2011)和汤普森采样(Thompson,1933;Chapelle 和 Li,2011;Riquelme 等人,2018)在数学上已被证明比贪婪方法具有更好的遗憾,但尚不清楚这种益处是否会转化为具有噪声和延迟反馈以及不可测试的建模假设的工业推荐设置。 衡量探索益处存在三个主要挑战。第一个是待检查的指标,因为探索的益处需要很长时间才能显现,并且难以在常规的 A/B 测试中捕捉到。同时,推荐不太确定的内容通常会导致短期用户参与指标的损失。因此,确定一些可以作为探索与长期用户体验之间桥梁的中间实体至关重要。 我们专注于通过探索对系统中内容语料库的中间影响来研究探索的价值。我们系统地研究了探索如何扩大内容语料库,进而转化为长期用户参与度提升。第二个挑战是实验设计,正如我们将在后面解释的那样,常用的用户分流 A/B 测试(Kohavi 等人,2020)无法捕捉到探索对内容语料库的益处,因为控制组和实验组之间存在信息泄漏。我们引入了一个新的实验框架来衡量探索对内容语料库变化的影响。最后一个挑战在于设计可以在现实世界工业规模环境中使用的基于探索的系统。为此,我们采用了一种可扩展的探索算法,即神经线性老虎机(NLB)(Riquelme 等人,2018),以充分释放和检验探索的潜在益处。NLB 在从深度神经网络学习的表示之上执行线性回归,作为上下文特征来估计不确定性。它很好地融入现代基于深度学习的推荐系统(Covington 等人,2016),同时在计算准确的不确定性估计方面保持简单。 总之,我们做出了以下贡献: 探索的长期价值:扩大语料库 在本节中,我们研究了通过语料库变化来研究探索的益处。总之,在不确定区域进行探索会增加新鲜和尾部内容的曝光度和可发现性,并改变整体语料库分布,进而改善长期用户体验。我们首先定义语料库指标,即可发现语料库;然后介绍一个新的用户-语料库-协同分流实验框架来衡量探索对可发现语料库的益处。最后,我们展示了一项长期研究,展示了语料库变化对用户体验的影响。 语料库指标 基于利用的系统会导致高度倾斜的语料库分布,其中一小部分语料库占据了大量的用户交互,而其余语料库几乎没有被发现。我们提出了一种语料库指标,该指标捕捉了每个视频接收的交互次数中的语料库分布。为了避免由于内容本身的性能更好(即接收更多交互)而产生的任何混淆因素,仅仅是因为它从探索处理中获得了更多展示,我们使用探索后语料库性能来衡量探索效果。 具体来说,我们为内容设置了一个 X’ 的毕业门槛,即正向用户交互次数。换句话说,一旦内容收到超过 X’ 次的正向用户交互,它就不再有资格接受进一步的探索处理。此时,内容进入探索后阶段,需要靠自身生存。也就是说,探索处理用于引导冷启动内容,但内容的成功仍然主要取决于其自身质量以及在移除进入门槛后的受众相关性。鉴于此,我们正式定义了系统 π 的 Discoverable Corpus @X,Y: Discoverable Corpus @X,Y = (在探索后时间段 Y … Read more

零样本商品推荐:多任务商品知识图谱预训练

在当今信息爆炸的时代,推荐系统已经成为我们日常生活不可或缺的一部分。然而,现有的推荐系统在处理“零样本商品”时面临着巨大挑战。所谓“零样本商品”,指的是在训练阶段没有与用户发生过交互的商品。由于缺乏历史数据,传统推荐算法难以对这些商品进行有效的推荐。 近年来,预训练语言模型(PLMs)在提取通用商品表示方面取得了显著进展。然而,这些模型忽略了商品之间至关重要的关系信息。为了解决这一问题,一篇名为《基于多任务商品知识图谱预训练的零样本商品推荐》的论文提出了一种全新的零样本商品推荐(ZSIR)范式,该范式通过对商品知识图谱(PKG)进行预训练来细化来自 PLMs 的商品特征。 商品知识图谱预训练的挑战 论文指出,商品知识图谱预训练面临着三大挑战: 多任务预训练与任务导向适配层 为了应对这些挑战,论文提出了四种预训练任务和一种新颖的任务导向适配层(ToA): ToA 层旨在将 PKG 中的知识有效地迁移到下游 ZSIR 任务。它通过学习一个映射函数,将 PKG 中的商品表示映射到 ZSIR 任务中的商品表示。 模型微调与实验结果 论文还讨论了如何将模型微调到新的推荐任务,并使 ToA 层适应 ZSIR 任务。实验结果表明,该模型在知识预测和 ZSIR 任务上都取得了显著的效果。 总结 这篇论文提出了一种基于多任务商品知识图谱预训练的零样本商品推荐方法,有效地解决了现有的推荐系统在处理零样本商品时面临的挑战。该方法通过对 PKG 进行多任务预训练,并利用 ToA 层将知识迁移到下游任务,显著提升了推荐效果。 参考文献 Fan, Z., Liu, Z., Heinecke, S., Zhang, J., Wang, H., Xiong, C., & Yu, P. S. (2023). Zero-shot item-based recommendation via multi-task … Read more

用 Ollama 创建微调后的模型

前言 我们将介绍如何用 Ollama 创建微调过的模型,让对话效果更符合特定化需要。 一、微调大模型 1. LORA 微调 微调大模型的方法有很多,这里我们使用 LORA 微调方法。微调大模型需要比较高的显存,推荐在云服务器上进行训练,系统环境为 Linux。训练方法可以参考 DataWhale 的教程。 1.1 选择基础大模型 基础大模型我们选择 Chinese-Mistral-7B-Instruct-v0.1,模型文件可以在 Hugging Face 或 魔搭社区 下载。 1.2 下载基础大模型 使用魔搭社区的 Python 脚本进行下载,执行前需要先运行 pip install modelscope。 2. 选择数据集 微调大模型要想获得比较好的效果,拥有高质量的数据集是关键。可以选择用网上开源的,或者是自己制作。以中文数据集弱智吧为例,约 1500 条对话数据,数据集可以从 Hugging Face 下载。 3. LORA 微调 3.1 安装依赖 使用 Miniconda 创建 Python 环境,Python 版本为 3.10。 依赖文件 requirements.txt 内容如下: 运行 … Read more

PALR:个性化感知的推荐系统新范式

大型语言模型(LLM)近年来在自然语言处理领域取得了巨大突破,其强大的语言理解和生成能力也开始被应用于推荐系统,为个性化推荐带来了新的可能性。然而,现有的LLM在推荐系统中的应用大多局限于零样本或少样本测试,或者使用参数量较小的模型进行训练,难以充分发挥LLM的推理能力,也无法利用商品丰富的参数化信息。 为了解决这些问题,研究人员提出了一个名为PALR的新框架,旨在将用户的历史行为(例如点击、购买、评分等)与LLM相结合,生成用户偏好的商品推荐。 PALR:如何将用户行为与LLM结合? PALR框架主要包含两个阶段: 1. 候选检索: 首先,利用用户与商品的交互信息,例如用户点击过的商品、购买过的商品等,作为指导,从商品库中检索出候选商品。 2. LLM排序: 然后,将检索到的候选商品以自然语言的形式输入到一个经过微调的LLM模型中,该模型参数量高达70亿,并通过指令明确要求模型从候选商品中选择最佳推荐结果。 PALR的优势: PALR的实验结果: 研究人员在多个顺序推荐任务上对PALR进行了测试,结果表明,PALR在各种指标上都优于现有的推荐模型,证明了该框架的有效性。 PALR的未来展望: PALR框架为推荐系统的发展提供了新的方向,未来可以从以下几个方面进行改进: 结语 PALR框架的提出,标志着LLM在推荐系统中的应用迈上了新的台阶。相信随着技术的不断发展,LLM将在个性化推荐领域发挥越来越重要的作用,为用户提供更智能、更个性化的服务,开启推荐系统的新时代。 参考文献