大家好,欢迎收听我们的人工智能播客,我是你的主播,也是资深的人工智能专家。今天我们要聊的话题是:如何通过一种全新的方式——思维骨架(Skeleton-of-Thought,简称SoT),来加速大语言模型(LLM)的输出,并提高其结果质量。🚀
💡大语言模型的痛点
LLM,例如LLaMA和OpenAI的GPT-4,正在改变我们的技术领域。然而,对LLM的一个普遍抱怨是它们的运行速度。在许多情况下,从LLM获取答案需要很长时间,这限制了LLM在诸如聊天机器人、协同助手和工业控制器等延迟关键功能中的应用。⏱️
🚀思维骨架的提出
为了解决这一问题,微软研究院和清华大学的研究者提出了一种新的加速LLM生成的方法——思维骨架(SoT)。不同于大多数先前需要对LLM模型、系统或硬件进行修改的方法,SoT将LLM视为黑箱,因此可以应用于任何现成的开源(如LLaMA)或API基础(如OpenAI的GPT-4)模型中。🎁
🚗SoT如何加速?
SoT的想法源于LLM和人类处理信息的方式的区别。LLM按顺序生成答案,而人类在很多情况下,会先提炼出答案的骨架,然后添加细节来解释每一点。SoT就是按照这种人类的思维方式,将生成过程分为两个阶段:首先,SoT让LLM生成答案的骨架,然后再让LLM给出骨架中每一点的答案。🔍
这种方法提供了一个新的加速机会,因为第二阶段的每一点的答案都可以并行生成,无论是本地模型(如LLaMA)还是API基础模型(如OpenAI的GPT-4)。对于API基础模型,我们可以对每一点发出并行的API请求。对于本地运行的模型,我们可以在一个批次中同时回答所有的点。💼
⚖️SoT的效果如何?
我们在包括九个开源模型和三个API基础模型在内的12个最近发布的模型上测试了SoT。我们使用的是Vicuna-80数据集,该数据集包含80个问题,涵盖了编程、数学、写作、角色扮演等九个类别。
结果显示,SoT在所有模型上都提供了显著的速度提升。特别是,SoT在12个模型中的8个模型上获得了超过2倍(最高达到2.39倍)的速度提升。此外,SoT在不明显降低答案质量的情况下实现了这种速度的提升。💪
🌈SoT的未来
SoT通过独立并行地扩展点,因此并不适合需要逐步推理的问题,比如数学和编程。为此,我们提出了一种SoT的扩展,叫做SoT with Router(SoT-R),它可以在适合的时候自适应地触发SoT。我们提出了一个路由器模型,该模型可以基于问题和答案的骨架,预测何时应使用SoT。实验显示,SoT-R在数学和编程问题上的性能超过了原始的SoT,并在所有测试集上达到了最好的性能。🎯
对于未来,我们期待通过进一步的研究和开发,将SoT的应用范围扩大到处理更复杂的问题,同时继续提高其生成速度和答案质量。我们相信,随着技术的不断发展,大语言模型将在我们的日常生活中扮演越来越重要的角色,为我们提供更加智能、快速和准确的服务。✨
在此,我要提醒大家,SoT的代码和演示已经在Github上开源,欢迎感兴趣的朋友们去查阅和使用。🌐
以上就是今天播客的全部内容,希望大家对SoT有了更深入的理解。如果你有任何问题或者想法,欢迎在评论区留言。我们下期再见,祝大家每天都有新的收获!👋
https://github.com/imagination-research/sot/