DeepSeek DSpark 一夜之间把大模型推理效率拉升到新高度：在线服务下

DeepSeek DSpark 一夜之间把大模型推理效率拉升到新高度：在线服务下用户生成速度提升60-85%，吞吐量最高激增400%+，这不是新模型，而是直接让现有V4“跑得更快”的黑科技！

DeepSeek 近日发布 DSpark，这是一套推测解码（Speculative Decoding）框架，专为 DeepSeek-V4（包括 Flash 和 Pro 版本）优化在线服务。它不是全新基础模型，而是附加在现有 V4 权重上的草稿模块（drafter），通过半自回归草稿生成器（semi-autoregressive drafter）和置信度调度器（confidence scheduler），在更严格的延迟目标下，将在线服务吞吐量提升51%至406%，用户实际生成速度在保持相同总吞吐量时提升57-85%。

核心创新包括：结合并行骨干网络的速度与轻量 Markov head 的连贯性（减少后缀衰减），再用置信度头动态调整每次验证的 token 数量，根据服务器实时负载自适应调度。DeepSeek 同时开源了 DeepSpec 全栈代码库（包含训练、评估流水线）和对应检查点，支持 Qwen、Gemma 等其他模型。

万益资讯网

DeepSeek DSpark 一夜之间把大模型推理效率拉升到新高度：在线服务下

热门分类