图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和Inference Scaling新范式!


-
论文标题:Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step -
论文地址:https://arxiv.org/pdf/2501.13926 -
项目地址:https://github.com/ZiyuGuo99/Image-Generation-CoT
-
离散化 Token 表示:无论是语言还是图像数据,自回归模型都将其量化为离散 Token,并通过逐步预测的方式进行生成。 -
逐步解码(Step-by-Step Decoding):类似于 CoT 在数学问题上的逐步推理,自回归图像生成也可以逐步生成中间图像,并在生成过程中进行验证与优化。






-
清晰度判断(Clarity Judgment):识别哪些中间步骤的图像已经足够清晰,可用于后续评估。 -
潜力性评估(Potential Assessment):分析当前步骤是否有潜力生成高质量的最终图像。 -
最佳选择(Best-of-N' Selection):在高潜力路径中选择最佳的最终图像。





