思维白板:跨模态逐步思考思维白板:跨模态逐步思考
引言 “哪个小写字母是一个圆圈,右边有一个垂直的线段从圆圈上往下延伸?”这个问题看似简单,但你可能已经通过在脑海中形成一个图像来解答了。你首先想象一个圆圈,然后在圆圈的右边添加一条垂直的线段,最终识别出字母“q”。如果需要记住更多信息,你可能会使用笔和纸,但思考过程仍然类似。 人类擅长这种视觉思考。我们能够轻松地将文字和图像中的推理交织在一起,以解决问题和交流想法(Tversky,2011)。我们不仅在直接的视觉推理中形成图像,而且在空间导航时绘制地图(Card 等人,1999),甚至处理抽象概念(Bobek 和 Tversky,2016)。 大型语言模型(LLMs)已经彻底改变了自然语言处理领域(Brown 等人,2020;Vaswani 等人,2017),它们通过扩展参数数量和训练数据,在各种推理任务中展现出强大的能力。链式思考(CoT)提示(Wei 等人,2022;Kojima 等人,2023)允许语言模型通过在生成最终答案之前以文本形式写出中间步骤来解决复杂问题,并在算术和符号推理等任务中展现出巨大潜力。因此,自然地,我们会问:LLMs 能否解决我们人类通过视觉思考解决的任务? 我们发现,对于某些涉及视觉和空间推理的任务,即使是最先进的LLMs 也会出现显著的失败。在图1中,我们看到GPT-4o(OpenAI 等人,2023)声称我们之前问题的答案实际上是“b”;它没有进行正确的隐式视觉推理,关于左、右、上、下的方向,以得出正确的答案。“b”被观察到是确定性地采样的;在使用温度的情况下,它会在“b”、“p”、“d”和“q”之间随机选择,也就是说,这些字母具有正确的特征,但排列方式不同。它提到了“碗”和“茎”来缩小可能的选项,然后未能进行空间推理来确定所描述的方向意味着什么。一个人不需要具备排版方面的专业知识来回答这个问题;任何能够创建正确图像并具备基本视觉识别能力的人都能轻松解决它。这突出了两种推理过程之间的显著差异。 思维白板:跨模态逐步思考 我们的关键想法是,视觉推理任务需要视觉。我们利用多模态大型语言模型(MLLMs)的能力,这些模型不仅接受文本输入,还接受图像等其他模态的输入,从而实现这一点。我们证明,为MLLMs 提供创建和推理显式视觉的能力——就像一个展示中间思想的白板——可以解锁类似于视觉思考的能力。 因此,我们引入了“思维白板(WoT)”:我们为MLLMs 提供一个隐喻性的“白板”,让它们将中间推理步骤的结果绘制为图像,然后提示它们使用它们的多模态输入能力来生成答案或从模型自身生成的图像中进行进一步推理。我们发现,利用模型现有的能力,通过使用Turtle 和 Matplotlib 等图形库来编写代码,足以创建对解决视觉推理任务有用的图像,而无需任何示例。 我们在三个涉及理解ASCII 艺术的BIG-Bench(Srivastava 等人,2022)任务上展示了这种想法的潜力,以及一个最近的困难基准,它探测了空间推理能力(Yamada 等人,2024),证明了WoT 和 CoT 之间的巨大性能差距。我们进一步分析了哪些类型的问题更适合在视觉标记而不是文本标记上进行推理。最后,我们确定了MLLM [...]