原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源


-
论文标题:xLSTM 7B: A Recurrent LLM for Fast and Efficient Inference -
论文地址:https://arxiv.org/pdf/2503.13427 -
代码地址:https://github.com/NX-AI/xlstm -
Hugging Face 地址:https://huggingface.co/NX-AI/xLSTM-7b

-
在预上投影块中,mLSTM 在比模型嵌入维数高得多的维数上运行,这导致 mLSTM 操作的计算成本和 GPU 内存使用量大幅增加。 -
省略位置前馈 MLP 层会导致模型中高效线性层 FLOP 的比例下降。 -
以前的 xLSTM 架构使用几个额外的组件,例如可学习的残差连接、通道卷积以及用于计算查询、键和值的小(块对角化)投影层。如果没有自定义内核融合,这些小操作会导致 GPU 上出现多个短内核调用,无法有效利用张量核心,从而大幅降低 GPU 利用率。 -
以前,输入和遗忘门预激活是通过连接的查询、键和值投影计算出来的。而在大规模张量并行训练设置中,这需要每个 mLSTM 块进行额外的全归约操作,从而增加总体通信成本。




-
使用 RMSNorm 替代 LayerNorm; -
对输入门和遗忘门实施软上限限制; -
对输入门偏置进行负初始化。









