探索跳跃式思维链：DeepSeek创造力垫底，Qwen系列接近人类顶尖水平

2025年02月28日,23时03分33秒 OpenAI 阅读 42 views 次

在大语言模型 (LLM) 的研究中，与以 Chain-of-Thought 为代表的逻辑思维能力相比，LLM 中同等重要的 Leap-of-Thought 能力，也称为创造力，目前的讨论和分析仍然较少。这可能会严重阻碍 LLM 在创造力上的发展。造成这种困局的一个主要原因是，面对「创造力」，我们很难构建一个合适且自动化的评估流程。

^{图 1}

过去大多数创造力测评在探索 LLM 的 Leap-of-Thought 能力的时候，仍然遵循普通大模型测评中的选择、排序等评估类型。尽管这种评估方式对逻辑思维能力的考察非常有效，但是在对创造力的评估中则不太合理。

如下图所示，如果要求阅读所给图和图中文字，并为图中「？」部分填入一句话，使得整体富有创造力且幽默。如果这个任务是一个选择题型的任务，并提供了「A. 可以帮忙扶一下我吗？」和「可以帮我解开手铐吗？」，LLM 可能会在无需任何创造力的情况下选择 B，因为 A 选项很常规，而 B 选项很特别。

^{图 2}

评估 LLM 的创造力应该是「考察其生成创新内容的能力」，而不是「考察它是否能判定创新的内容」。在当前的研究范式中，通过人类评估或者 LLM-as-a-judge 的方式符合这一要求。然而，尽管人类评估的准确率最高且符合人类一般价值观，但是这种方式不可持续且成本非常高。

而 LLM-as-a-judge 这种大致通过 zero-shot 或者 fine-tuning 一个 LLM 来对目标进行评分的方式，其在创造力任务上的评估能力目前仍然处于初级阶段，而且不是很稳定。

面对这些困难，来自中大、哈佛、鹏城、新加坡管理大学的研究者另辟蹊径，通过研究 LLM 产生人类高质量创新内容所需要的代价 (也可以看作是 LLM 产生内容与人类水平创新内容的距离)，建立一个多轮交互的可信且自动化创造力评估范式 LoTbench。研究成果登上了 IEEE TPAMI。

论文题目：A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
论文链接：https://arxiv.org/abs/2501.15147
项目主页：https://lotbench.github.io

任务场景

本论文是 CVPR'24中「梗王」大模型（Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation）的期刊扩展，其考虑的创造力基础任务是如图 2 所示的，看图并直接生成补全文字中的空缺处，使得图文整体显得创新且幽默。

这类任务是日本传统游戏「大喜利」游戏的一种，在中文互联网社区也被称为日式冷吐槽。它具有如下一些特点：

1. 这类日式冷吐槽游戏要求看图并补全具有创意且幽默的文字，对创造力要求很高，是典型是创造力问题；

2. 这类日式冷吐槽游戏完美符合当前多模态大模型的输入输出格式，即输入时图文，输出仅为文字，而且是大模型最擅长的文字补全任务；

3. 这类日式冷吐槽游戏由于在互联网上热度非常高，有大量高质量人类标注数据和带有 ranking 信息的点评数据，对构建数据集很有帮助。

综上所述，这类日式冷吐槽游戏是少有的适合多模态 LLM 进行创造力测评的理想平台。

任务内容

^{图 3}

与一般大模型测评 (Standard Evaluation) 中选择、排序等范式不同的是，论文所提出的 LoTbench 考虑的是通过 LLM 产生人类高质量创新内容 (High-quality human-level response, HHCR) 所需要的总轮数构建一个创造力得分。

如图 3 右所示，对于一个 HHCR，LLM 在给定条件下，多轮地尝试生成和 HHCR 具有异曲同工之妙的创新响应。当 LLM 以很少的轮数产生 HHCR，可以认为 LLM 具有不错的创造力。反之，如果 LLM 需要很长的轮数，甚至无限轮 (即无法到达)，则可以认为在当前 HHCR 中创造力不足。

^{图 4}

基于上述思想，图 4 展示了所提出的 LoTbench 的具体流程：

精选具有人类高质量创新内容 (HHCR) 的日式冷吐槽游戏的数据，构建 MLM task，即要求 LLM 每一轮根据图文信息，生成 Rt 补全给定文字空缺；
判断生成的 Rt 和 R (即 HHCR) 是否是异曲同工之妙 (different approach but equally satisfactory outcome, DAESO)。若是，则开始通过轮数计算创造力分数，否则(来源:机器之心)

关联资讯:

荐

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密

02月12日凤凰网科技讯 2月12日，在中国AI公司的影响下，OpenAI不得不公开O系列强化学习的秘...

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

关联资讯:

用户登录