探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平




-
论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
-
论文链接:https://arxiv.org/abs/2501.15147
-
项目主页:https://lotbench.github.io


-
精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据,构建 MLM task,即要求 LLM 每一轮根据图文信息,生成 Rt 补全给定文字空缺;
-
判断生成的 Rt 和 R (即 HHCR) 是否是异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是,则开始通过轮数计算创造力分数,否则(来源:机器之心)