DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

-
每个 H800 节点实现了73.7k/14.8k 个每秒输入 / 输出 token; -
(理论)成本利润率高达 545%。


-
EP 引入了跨节点通信。为了优化吞吐量,必须设计适当的计算工作流,shi 通信与计算重叠。
-
EP 涉及多个节点,因此本质上需要数据并行 (DP),并且需要在不同的 DP 实例之间进行负载平衡。
-
利用 EP 扩展 batch 大小;
-
隐藏计算背后的通信延迟;
-
执行负载平衡。
-
预填充阶段 [路由专家 EP32、MLA / 共享专家 DP32]:每个部署单元跨越 4 个节点,拥有 32 个冗余路由专家,其中每个 GPU 处理 9 个路由专家和 1 个共享专家。
-
解码阶段 [路由专家 EP144、MLA / 共享专家 DP144]:每个部署单元跨越 18 个节点,拥有 32 个冗余路由专家,其中每个 GPU 管理 2 个路由专家和 1 个共享专家。


-
平衡 GPU 之间的核心注意力计算(核心注意力计算负载平衡)。
-
均衡每个 GPU 的输入 token 数量(调度发送负载平衡),防止特定 GPU 上的处理时间过长。
-
平衡 GPU 之间的 KV 缓存使用率(核心注意力计算负载平衡)。
-
均衡每个 GPU 的请求数(调度发送负载平衡)。


-
总输入 token:608B,其中 342B token(56.3%)命中磁盘 KV 缓存。
-
总输出 token:168B。平均输出速度为每秒 20-22 个 token,每个输出 token 的平均 kvcache 长度为 4,989 个 token。
-
每个 H800 节点在预填充期间平均吞吐量约为 73.7k tokens/s 输入(包括缓存命中)或在解码期间约为 14.8k tokens/s 输出。
-
DeepSeek-V3 的定价显著低于 R1,
-
只有部分服务实现货币化(网页和 APP 访问仍然免费),
-
在非高峰时段自动应用夜间折扣。
(来源:机器之心)
