当机器试图理解因果：一场视觉与逻辑的角逐 – InfoGaps

—— 新基准测试揭示人工智能视觉推理的优势与短板

近年来，大型语言模型（LLMs）在理解文本信息、进行因果推理方面展现出了惊人的能力。然而，当面对纯粹的视觉线索时，这些擅长文字游戏的模型还能否像福尔摩斯一样洞察秋毫，推断出图像背后的因果关系呢？为了解答这个疑问，我们开发了一个名为 MuCR 的多模态因果推理基准测试，旨在挑战视觉大型语言模型（VLLMs）仅凭视觉线索推断因果关系的能力。

想象一下，如果机器能够通过观察一系列图像，就能像经验丰富的侦探一样，识别出微妙的视觉线索，并推理出事件发生的来龙去脉，那将是多么令人兴奋！然而，现实中的 VLLMs 真的准备好了吗？

MuCR：一场精心设计的视觉推理挑战赛

MuCR 基准测试的独特之处在于，它提供成对的图像，并要求 VLLMs 分析这些图像之间的因果关系。为了使挑战更具趣味性和真实性，我们采用了一种新颖的「提示驱动图像合成」方法。简单来说，我们首先使用 LLMs 生成描述因果关系的文本描述，例如「他吃了太多冰淇淋」和「他肚子疼」。然后，我们使用先进的图像生成模型，如 DALL-E 和 Stable Diffusion，将这些文本描述转化为栩栩如生的图像。

为了确保 MuCR 数据集的丰富性和多样性，我们涵盖了各种类别，包括人物、动物、植物、卡通角色以及它们的混合场景。此外，我们还采用了不同的图像风格，例如写实的摄影风格和夸张的漫画风格。

三重考验：全方位评估 VLLMs 的推理能力

为了全面评估 VLLMs 的因果推理能力，我们设计了三个层次的指标：

图像级别： 就像玩「连连看」游戏一样，我们为模型提供一张「原因」图像和四张候选的「结果」图像，让模型从中选择最符合逻辑的那一张。这个指标直接测试了 VLLMs 能否识别图像之间的因果关系。
短语级别： 我们为模型提供一组与图像相关的短语，其中只有一个短语准确地描述了图像之间的因果关系。例如，对于「他淋雨了」和「他感冒了」这两张图片，正确的短语应该是「感冒」，而不是「雨伞」或「鞋子」。
句子级别： 我们要求模型用完整的句子解释图像之间的因果关系，就像一个小学生在讲述故事一样。这个指标考察了 VLLMs 能否用自然语言清晰地表达因果关系。

结果揭晓：喜忧参半，任重道远

我们选择了当前最先进的开源和内部 VLLMs，并进行了大量的实验。结果表明，开源模型在 MuCR 上的表现普遍不佳，甚至与随机猜测的结果相当。这主要是因为开源模型的视觉理解能力还比较薄弱，难以准确地识别图像中的关键信息。

相比之下，内部模型的表现要好得多，但仍然无法达到人类的水平。例如，在短语级别测试中，即使是表现最好的 GPT-4o 模型，其准确率也只有 57.25%，而人类的准确率高达 90.50% 。这表明，当前的 VLLMs 在多模态因果推理方面还有很大的提升空间。

剖析不足：视觉与逻辑的博弈

那么，究竟是什么原因导致 VLLMs 在 MuCR 上表现不佳呢？

开源模型： 主要问题在于视觉感知能力不足。许多开源模型只能识别图像中的基本元素，例如人物、物体和场景，但无法理解更细微的视觉线索，例如人物的表情、动作和服装。
内部模型： 主要问题在于语言模型中强大的因果知识先验。换句话说，这些模型可能过度依赖自身的语言知识，而忽略了图像中提供的视觉证据。

展望未来：通往更强大的视觉推理之路

MuCR 基准测试的提出，为多模态因果推理的研究提供了一个宝贵的平台。为了进一步提升 VLLMs 的性能，未来的研究可以关注以下方向：

增强视觉感知能力： 可以探索更强大的视觉编码器，或者采用多阶段的视觉推理机制，帮助模型更好地理解图像中的视觉线索。
平衡语言知识与视觉证据： 可以设计新的训练目标，鼓励模型在进行因果推理时，更加重视视觉证据，而不是过度依赖自身的语言知识。
探索更丰富的视觉输入形式： 可以尝试使用多张图像、视频或者 3D 场景作为输入，为模型提供更全面的视觉信息。

总而言之，MuCR 基准测试揭示了当前 VLLMs 在多模态因果推理方面的优势和不足，并为未来的研究指明了方向。相信随着技术的不断进步，VLLMs 将最终具备像人类一样强大的视觉推理能力，并在各个领域发挥更大的作用。

参考文献

Zhiyuan Li, Heng Wang, Dongnan Liu, Chaoyi Zhang, Ao Ma, Jieting Long, Weidong Cai. Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images. arXiv preprint arXiv:2408.08105v1, 2024.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805, 2018.
Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI blog, 2019.
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever. DALL-E. Creating Images from Text. ✅arXiv preprint arXiv:2102.12092, 2021.
Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer. High-Resolution Image Synthesis with Latent Diffusion Models. arXiv preprint arXiv:2112.10752, 2021.

MuCR：一场精心设计的视觉推理挑战赛

三重考验：全方位评估 VLLMs 的推理能力

结果揭晓：喜忧参半，任重道远

剖析不足：视觉与逻辑的博弈

展望未来：通往更强大的视觉推理之路

发表评论 取消回复

发表评论取消回复