内存通胀“终结者”？谷歌公开最新极限压缩算法

2026年03月26日,14时15分54秒科技新知阅读 2 views 次

破解算力问题，降低模型所需的存算空间，有很多种途径，是减少训练时算力，还是减少推理时算力？稀疏化、量化、压缩、蒸馏等手段，都是方法之一。只是当前鉴于不同方法的优势特征，各家模型企业及研究机构都会选择不同的策略。

以长上下文任务为例，过去两年，AI算法团队曾提出要以键值缓存（KV Cache）为中心的分离架构设计，即根据不同计算特性将预填充服务器与解码服务器分开，在大batch size及队列场景下需要更大的系统内存带宽。简而言之，对于许多推理时任务来说，瓶颈在于内存带宽。

今日，谷歌发布了一项名为TurboQuant的算法，这项技术旨在解决上述提及的问题：大模型运行时的内存消耗。其核心是让AI在思考和回答问题时，占用少得多的工作内存，同时保持几乎相同的智力水平，甚至速度更快。

根据官方描述，TurboQuant的推出预计会带来多项利好：模型推理方面，百万Token上下文成本会明显下降；向量数据库领域，更容易做到实时索引和亚毫秒查询；边缘AI领域，手机和嵌入式设备的上下文推理更现实。此外，该思路同样可扩展到多模态领域的向量压缩。

事实上，就在该技术发布当日，美股存储板块如美光科技、闪迪等应声下跌。近年来，内存(RAM)、固态硬盘(SSD)、硬盘驱动器(HDD)等存储产品受下游数据中心建设扩张需求的激增，出现了一段时间的供应短缺及价格推高。该市场反应可以理解为，TurboQuant一旦广泛应用，或将显著影响未来对AI推理服务器中内存容量规格的需求判断，重塑相关硬件的成本曲线。

要理解TurboQuant的价值，首先要明白大模型在生成文本时是如何工作的。它们并非一次性处理所有信息，而是像人类阅读一样，一个字一个字地生成。在这个过程中，模型需要一个“临时记事本”来记住之前所有对话的内容，以免重复计算。这个“记事本”在技术上被称为键值缓存（KV Cache）。但问题在于，对话越长，这个“记事本”就越厚，占用的内存就越多。以长文本为例，在处理超长文档或复杂多轮对话时，KV Cache会迅速撑满昂贵的高性能内存，成为制约AI处理速度、推高运行成本的主要瓶颈。

TurboQuant运用了两个结算的核心算法：PolarQuant主压缩和QJL（量化Johnson-Lindenstrauss变换）残差校正，目标是压缩KV Cache中的向量。

第一步：PolarQuant——高质量压缩

传统量化方法类似于用直角坐标系（东、北方向）记录一个点的位置。TurboQuant的第一步，是PolarQuant，改用极坐标（角度和距离）来描述。研究发现，经过特定的数学变换（随机旋转）后，高维向量的数值分布会变得非常规律和集中，就像一个固定的圆形网格。这样一来，系统可以预先计算好一套最优的压缩码本，无需针对每次对话进行复杂的校准，实现了在线实时压缩。这一步用大部分比特对数据主体进行了高质量压缩。

第二步：QJL——消除隐藏误差

第一步压缩后，会残留微小的误差。如果放任不管，在AI计算注意力（即决定关注对话中哪部分内容）时，这些误差会累积并导致结果出现偏差。TurboQuant的第二步创新在于，它用一个名为QJL的方法来处理这些残差。QJL的特点在于，它仅用1个比特（即一个正负号）来表征残差，并与高精度的原始查询向量结合，最终能实现无偏的内积估计。这意味着，尽管数据被大幅压缩，但AI在计算“哪些信息更重要”时，得到的结果依然是准确无误的。

什么是QJL？简单说，就是一种把高维向量“投影”到低维空间的方法，且能以数学证明保证距离关系不被破坏太多。QJL把这个投影结果进一步压缩到1比特，体积极小，但仍能作为无偏估计器。

根据谷歌官方博客阐述，TurboQuant带来了接近理论极限的性能提升：

极致压缩：可以将KV Cache压缩到每通道仅3比特，相比传统的16或32比特存储，减少了至少6倍的内存占用。在长上下文测试中，即使压缩后，模型依然能找到隐藏的信息，表现满分。
精度无损：在多个标准长上下文基准测试（如LongBench、Needle in a Haystack）上，使用3.5比特配置的TurboQuant，模型性能与使用全精度缓存时完全一致，2.5比特配置下也只有轻微的性能下降。
速度提升：由于需要从内存中读取的数据量锐减，计算速度得到极大提升。在H100 GPU上，4比特TurboQuant的注意力核心步骤的速度，比未压缩的32比特版本快8倍。

TurboQuant能够以极低的内存占用、近乎零预处理时间和最先进的精度构建和查询大型向量索引。这使得谷歌规模的语义搜索速度更快、效率更高。当然，TurboQuant的意义远不止于一项实验室突破。据博客所述，向量量化虽然目前主要解决的是Gemini等模型中的KV-cash瓶颈，但该技术同样适用于需要在高维向量数据库中进行海量搜索的场景（如现代语义搜索引擎）。

相关论文将在ICLR 2026和AISTATS 2026发表。

相关链接：https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

相关论文链接：https://arxiv.org/pdf/2502.02617

（本文作者 | 杨丽，编辑 | 杨林）

(来源：钛媒体)

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

第一步：PolarQuant——高质量压缩

第二步：QJL——消除隐藏误差

关联资讯:

用户登录