李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了


-
论文标题:Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization -
论文地址:https://arxiv.org/pdf/2503.11056v1 -
项目主页:https://kylesargent.github.io/flowmo




-
基于 Transformer 的设计:编码器和解码器都使用 Transformer 架构,从而能够更有效地处理图像数据。 -
一维潜空间表示:FlowMo 产生紧凑的潜在表示,使其适用于下游生成建模任务。 -
量化层:编码器的输出被量化以创建离散 token,从而实现更高效的压缩。 -
扩散过程:解码器使用扩散过程逐渐将随机输入去噪为高质量重建。

-
修正流损失(Rectified flow loss):引导扩散过程向目标图像分布靠拢,确保生成结果的准确性; -
感知损失(Perceptual loss):保证了重建图像在视觉上与原始图像高度相似; -
熵损失(Entropy loss):鼓励生成多样化的潜在编码,避免模式单一化; -
承诺损失(Commitment loss):使得编码器输出与量化表示尽可能接近,进一步优化了模型的稳定性与效率。





-
概率流 ODE:通过少量步骤的概率流常微分方程(ODE)集成; -
感知损失计算:在生成样本后,模型会计算其与原始图像之间的感知损失,确保重建结果在视觉上与原始图像保持一致; -
解码器参数更新:基于感知损失,FlowMo 对解码器参数进行优化。








