我们离真正的多模态思维链推理还有多远 ACL 2024 Oral

作者： 2024年08月15日金融浏览

该文章的第一作者陈麒光，目前就读于哈工大赛尔实验室。他的主要研究方向包括大模型思维链、跨语言大模型等。

在过去的几年中，大型语言模型（Large Language Models, LLMs）在自然语言处理（NLP）领域取得了突破性的进展。这些模型不仅能够理解复杂的语境，还能够生成连贯且逻辑严谨的文本。

然而，随着科技的发展和应用场景的多样化，单一文本模态的能力显然已经不能满足现代需求。人们日益期待能够处理和理解多种模态信息（如图像、视频、音频等）的智能系统，以应对更复杂的任务和场景。研究者们开始尝试将文本 CoT 的能力扩展到多模态思维链推理领域，以应对更加复杂和多样化的任务需求。

最早的多模态思维链研究之一是由 Lu 等人 [1] 引入的 ScienceQA 基准，该基准结合了视觉和语言信息，推动了多模态思维链（Multi-modal Chain of Thought, MCoT）的研究。ScienceQA 数据集的出现，使得研究者们能够在一个统一的框架下评估多模态模型的思维链推理能力。

进一步地，Zhang 等人 [2] 的研究更是将 MCoT 的性能推向了一个新高，使得模型在 ScienceQA 数据集上的表现超过了人类的水平 (93%>88%)。然而，当前的多模态思维链研究是否真正解决了所有挑战？随着 ScienceQA 等基准测试的成绩不断刷新，我们是否可以认为多模态推理问题已经迎刃而解？

研究者们通过深入分析发现，当前的多模态思维链基准仍然存在严重的问题，导致对模型实际能力的高估。当前的多模态思维链基准仍面临以下三个严重的问题： 视觉模态推理缺失 、 仅有单步视觉模态推理 以及 领域覆盖不足 。

这些问题严重制约了多模态思维链领域的发展。因此，研究者提出了一个新的基准

（Multi-Domain Multi-step Multi-modal Chain-of-Thought），旨在解决上述问题，并推动多领域、多步和多模态思维链的进步。研究者们还进行了全面的评估，涉及丰富的多模态推理设置与方法。

研究者们还发现当前的多模态大模型在

上的表现存在巨大的性能缺陷，尽管它们在以前的传统多模态思维链基准上表现优异。最后，研究团队希望

能够成为一个有价值的资源，为多领域、多步和多模态思维链的研究提供开创性的基础。

榜单地址：https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

论文地址：https://arxiv.org/abs/2405.16473

代码地址：https://github.com/LightChen233/M3CoT

动机

尽管在 MCoT 研究领域取得了显著进展，但现有基准仍然存在诸多不足：

1. 视觉模态推理缺失 ：模型往往可以仅基于文本模态生成推理和答案，这并不能真实反映多模态 CoT 模型的能力。

2. 单步视觉模态推理 ：比如说，只需要看到单次图片中的 “羽毛” 便可直接获得答案。而在实际应用中，多步推理更为常见和必要，要求模型在推理的过程中动态的多次结合多模态信息进行综合推理。

3. 领域缺失 ：对于思维链来说，常识推理和数学推理是该领域的重要组成部分，而现有基准缺乏对常识和数学等重要领域的覆盖，限制了多模态 CoT 能力的综合评估。

针对以上问题，研究者们开发了一个新基准

，并希望推动多领域、多步和多模态思维链的研究与发展。

数据构建过程

的构建涉及如下四个关键阶段：

流多模态大语言模型评测结果

研究者们在多个大型视觉语言模型（VLLMs）上进行了广泛的实验，包括 Kosmos-2、InstructBLIP、LLaVA-V1.5、CogVLM、Gemini 和 GPT4V 等。研究者们还探索了一些提示策略，如直接提交样本、思维链提示（CoT）[3] 以及描述性提示（Desp-CoT）[4] 和场景图思维链提示策略（CCoT）[5]。

分析

探索

在此基础上，研究者们进一步探究了当前各种常用的多模态方法与设置，探究是否能够有效的解决

中的问题。

工具使用探索

在多模态推理中，工具使用被认为是提高模型性能的一种有效策略。研究者们在实验中评估了多种工具使用方法，包括 HuggingGPT、VisualChatGPT、IdealGPT 和 Chameleon 等模型。

文本大模型使用多模态工具在

上表现不佳：实验结果表明，尽管这些工具在单模态任务中表现良好，但在

基准上的表现仍存在显著差距。例如，HuggingGPT 在处理复杂的多步推理任务时，由于缺乏对视觉信息的有效利用，表现较为逊色。此外，VisualChatGPT 和 IdealGPT 在处理需要多模态交互的任务时，表现也未能达到预期。这些结果表明，当前的工具使用框架需要进一步改进，以更好地整合和利用多模态信息。