DeepSeek宣布推出NSA：用于超快速长上下文训练和推理

2025年02月18日,16时02分50秒美国动态阅读 51 views 次

DeepSeek宣布推出NSA，用于超快速的长上下文训练和推理。

据其介绍，NSA是一种与硬件一致且本机可训练的稀疏注意力机制，用于超快速的长上下文训练和推理。

通过针对现代硬件的优化设计，NSA加快了推理速度，同时降低了预训练成本，而不会影响性能。

在一般基准测试、长上下文任务和基于指令的推理上，它与完全注意力模型相匹配或优于完全注意力模型。

责任编辑：刘明亮

标签：

版权说明：本文为转载文章，源于互联网,由程序alpha自动采集，于2025年02月18日最后更新
转载声明：DeepSeek宣布推出NSA：用于超快速长上下文训练和推理 | 少数派报告 +复制链接

少数派报告-全球投资导向

我们将专门针对全球的经济政治状况，做最及时的分析与资讯共享。同时将对国内的市场做适度的点评，提供各类关键分析资讯我们的口号是：金钱永不眠！

weixin

产品与服务

关于我们

Privacy Policy · Terms of Service · Contact Us

Copyright © 2014-2022 少数派报告保留所有权利 (Registered:USA CA Fremont 94536)