对话系统的新纪元:如何评估大型语言模型驱动的聊天机器人?
随着大型语言模型(LLM)的迅速发展,以LLM为基础的对话系统(例如聊天机器人)在近几年取得了惊人的进步。然而,这些系统也带来了新的挑战,它们可能对用户和社会产生负面影响。因此,建立一个有效的评估框架,及时发现这些潜在的负面影响,并量化其积极影响,变得至关重要。 评估框架的六大要素 一个理想的评估框架至少应该满足以下六个要素: SWAN框架:基于片段的评估方法 为了满足上述要求,本文提出了一个名为SWAN(Schematised Weighted Average Nugget,模式化加权平均片段分数)的评估框架,该框架主要包含以下特点: 片段权重 片段权重类似于信息检索指标(如nDCG)中的基于排名的衰减,但片段权重不一定随着片段位置的增加而单调递减。例如,基于S-measure的线性衰减函数假设片段的实际价值随着对话的进行而降低(即更快满足信息需求的较短对话会获得更高的奖励),而另一种方法则是只对来自对话最后一轮的片段赋予正权重,以模拟近因效应。锚定效应等因素也可以被纳入考虑,即“迄今为止看到的片段”会影响当前片段的权重。 SWAN分数 SWAN分数可以定义为: 其中,C表示评估标准的集合(即模式),CWc表示标准c的权重,Uc表示从对话样本中提取的关于标准c的片段集合,WANc(Uc)表示标准c的加权平均片段分数。 二十个评估标准 本文提出了二十个评估标准,可以作为SWAN框架的插件,这些标准涵盖了对话系统各个方面的评估,例如: 总结 本文介绍了用于评估对话系统的SWAN框架,该框架可以用于面向任务的对话和非面向任务的对话。此外,本文还提出了二十个评估标准,可以作为SWAN框架的插件。未来,我们将设计适合各种标准的对话采样方法,构建用于比较多个系统的种子用户回复,并验证SWAN的特定实例,以防止对话系统对用户和社会造成负面影响。 参考文献 [1] Marco Alessio, Guglielmo Faggioli, and Nicola Ferro. 2023. DECAF: a Modular and Extensible Conversational Search Framework. In SIGIR ’23: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval (Taipei, Taiwan). … Read more