MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
-
论文:https://arxiv.org/pdf/2403.14624.pdf -
主页:https://mathverse-cuhk.github.io/ -
代码:https://github.com/ZrrSkywalker/MathVerse -
数据集:https://huggingface.co/datasets/AI4Math/MathVerse -
题目:MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?
-
a. 描述信息,Descriptive Information(DI,红色高亮部分)指的是图像中可直接观察出的内容。它描绘了基本图形组成、几何形状和空间布局。此类文本信息对于图像而言是重复性的,因此被视为解决问题的冗余信息。 -
b. 隐含属性,Implicit Property(IP,蓝色高亮部分)指的是那些需要更强的视觉感知能力才能从图像中辨识出来的属性。它代表着解决问题所需的较强视觉条件,如线条之间的平行性和垂直性、三角形之间的相似性和全等性、函数的种类和周期性。 -
c. 基本条件,Essential Condition(EC,绿色高亮部分)指的是题目中给定的具体数值,它们是推导解决方案不可或缺的条件,并且不能从视觉图表中直接得出,例如角度、长度的精确值和函数表达式。
(来源:机器之心)
-
MLLM 更依赖于文本信息去解题,而不是观察数学图像。 -
除 GPT-4V 和 ShareGPT4V 之外,大部分 MLLM 在没有图像输入的情况下,仅仅通过文本竟然可以获得更高的得分,证明如今低质量的视觉编码对于解题来说起到了负面的作用。 -
MLLM 很难从图像中准确的解读出题目中的基本条件和问题。 -
闭源模型的多模态数学解题能力要比开源模型更好。 -
通过比较 G-LLaVA 和 LLaVA-1.5,使用数学训练数据进行模型微调可以提升特定的解题能力,但是也会降低其泛化能力。 -
CoT 测评相比二元测评可以更全面的体现模型的逻辑推理能力。