代码:https://github.com/dtennant/mirb_eval
摘要:
(背景问题)大型语言模型(LLMs)的进步极大地扩展了自然语言处理的应用范围,多模态LLMs扩展了这些功能来集成和解释视觉数据。然而,现有的视觉语言模型(VLMs)的基准主要集中在单图像输入上,忽视了多图像理解的关键方面。

(研究方法)本文介绍了一个多图像关系基准——MIRB,旨在评估VLM跨多个图像进行比较、分析和推理的能力。基准包括四类:感知、视觉世界知识、推理和多跳推理。
(实验结果)通过对各种开源和闭源模型的综合评估,证明尽管开源VLMs在单图像任务中的性能接近GPT-4V,但在多图像推理任务中仍然存在显着的性能差距。研究结果还表明,即使是最先进的GPT-4V模型也难以达到本文的基准,这突显了在这一领域进一步研究和开发的必要性。本文对MIRB的贡献可以作为开发下一代多模态模型的试验台。
内容:
MIRB任务的说明性示例。
(一)多图像推理。在这个维度中,评估模型理解多个图像的能力,并通过它们进行推理以得出最终答案。包括以下类型的问题:
•代码理解。在程序员需要找出程序输出的现实场景中,他们通常需要交叉比较来自不同文件的代码,以了解代码的执行轨迹。在这个设置中,文章收集了一组用于现实世界编程任务的程序,通过利用来自科学计算、web框架等流行Python库的示例代码。这些代码被捕获为屏幕截图,并评估模型对代码的理解程度。
•理解情节代码。多模态代码理解的第二个场景涉及将代码与代码生成的图形对象进行比较。具体来说,本文生成了一组代码,可以生成各种格式的图,包括barplot、piechart等。本文从Matplotlib库中获取代码示例来构建这些示例。然后向模型提供已绘制的图形和源代码的屏幕截图,并负责报告哪个源代码清单生成了给定的图形。
•视觉类比。本文还考虑将视觉类比作为一项需要模型比较不同图像的任务。视觉类比遵循的形式是什么是B'到B,给A'到A。模型需要理解A'和A之间的转换,然后将其应用于B,以便能够得到正确的答案。
•3D场景理解。理解给定多个2D图像的3D场景和物体是机器人和具身智能体的关键任务和挑战。作为典型的例子,本文生成合成3D场景的视图,其中某些信息只能通过比较不同的2D视图来访问。例如,在给定每个单独视图都有遮挡的情况下,计算场景中物体的总数。
(二)视觉世界知识。在LVLMs的实际使用中,许多流行的用例需要在世界知识的背景下分析视觉输入,例如,从成分表中确定哪种食品更适合糖尿病患者。这些任务需要将感知与先验世界知识相结合。本文在这个维度中收集了两种类型的问题,以了解lvlm是否可以在多个图像输入的背景下利用世界知识。
•观光。本文收集世界主要城市的观光地点数据,并生成问题,询问来自多个图像的地点是否在同一城市内,以及询问所呈现的地点位于哪个城市。对于这个子集中的图像,本文查询Pixabay API,然后手动过滤得到的图像。
•食物比较。第二项任务是将多种食品的成分表与文本提示中给出的标准进行比较。本文从OpenFoodFact中收集食品成分列表的图像,并生成需要比较食品成分图像的问题。
(三)感知。这个维度评估模型如何感知多个视觉输入。本文包括测试感知和识别跨多个图像的视觉输入的能力。
•图像拼图。在本任务中,为模型提供原始图像和由原始图像生成的多个图像补丁。任务是选择正确的排列,将图像补丁放回原始图像。这就要求模型对多个图像斑块及其相对的空间位置和外观进行推理。对于这个任务,本文使用从picsum中查询的随机图像。
•计数。另一项任务是计算多个图像中某一类对象的数量。为了生成正确数量的对象,模型需要在所有图像输入中感知和识别对象。本文使用MS-COCO数据集的边界框注释来创建这个子集。
•属性匹配。作为另一个感知任务,本文要求模型通过“所有输入图像中的物体是否以相同的艺术风格呈现?”等问题来匹配多个图像之间的物体属性。该模型需要识别每个图像中的这些属性,然后将它们关联起来。为了生成涵盖图像不同属性比较的问题,本文使用ImageNet-R数据集,该数据集包含对图像的对象类别和艺术风格的注释。
(四)推理。评估多图像推理的另一个维度是学习将每个图像中的内容联系起来,以执行最终的推理。例如,可以在一个图像输入上提供信息,然后在另一个图像输入中进行转换,迫使模型注意输入中的不同图像以执行推理。
•合成可视化逻辑链。本文设计了一个生成图像链的过程,该过程要求模型根据每个图像的内容进行推理,以得出最终的答案。本文从picsum中随机抽取图像,将“let variable a equal to 1”和“Set variable b to a+1”这样的文字放到不同的图像中,然后询问模型变量b的值。这样的设计,如果模型只能理解一张图像中的信息,就无法生成正确的答案。
•ArXiv论文引文查询。这种关系推理的一个现实例子可以是阅读arXiv论文并从内容页找到引用链接的过程。本文收集了一组论文,并根据论文的截图生成“第15页的引文[69]的标题是什么”这样的问题。与合成设置类似,这种设置需要模型在图像之间形成关系来进行推理。
实验:
各模型在MIRB四个维度上的性能比较。
MIRB性能分析。
欢迎留言兴趣区域!