万益资讯网

DeepSeek DSpark 一夜之间把大模型推理效率拉升到新高度:在线服务下

DeepSeek DSpark 一夜之间把大模型推理效率拉升到新高度:在线服务下用户生成速度提升60-85%,吞吐量最高激增400%+,这不是新模型,而是直接让现有V4“跑得更快”的黑科技!

DeepSeek 近日发布 DSpark,这是一套推测解码(Speculative Decoding)框架,专为 DeepSeek-V4(包括 Flash 和 Pro 版本)优化在线服务。它不是全新基础模型,而是附加在现有 V4 权重上的草稿模块(drafter),通过半自回归草稿生成器(semi-autoregressive drafter)和置信度调度器(confidence scheduler),在更严格的延迟目标下,将在线服务吞吐量提升51%至406%,用户实际生成速度在保持相同总吞吐量时提升57-85%。

核心创新包括:结合并行骨干网络的速度与轻量 Markov head 的连贯性(减少后缀衰减),再用置信度头动态调整每次验证的 token 数量,根据服务器实时负载自适应调度。DeepSeek 同时开源了 DeepSpec 全栈代码库(包含训练、评估流水线)和对应检查点,支持 Qwen、Gemma 等其他模型。