优于o1预览版,推理阶段KV缓存缩减一半,LightTransfer降本还能增效



-
项目主页:https://sites.google.com/view/lighttransfer
-
Huggingface 模型:cxdu/QwQ-32B-LightTransfer
-
github 代码:https://github.com/sail-sg/LightTrans

-
表示最后一部分的查询(query)集合;
-
分别表示初始与最近部分的键(key)集合;
-
为在第 i 层从查询 q 到键 k 的注意力权重。
(来源:机器之心)





