antirez发布了DeepSeek V4 Flash专用的推理引擎地址：git

2026-05-08 08:36:43 蚁工厂科技

antirez发布了DeepSeek V4 Flash专用的推理引擎地址：github.com/antirez/ds4之前提过他在做这个工作。现在项目正式发布了--一个专门为DeepSeek V4 Flash定制的推理引擎。仅适用于苹果Metal芯片，跑项目特制的量化模型（有q2、q4两个版本），q2可以在128g内存上运行。速度如图。

antirez特别解释了下q2量化也运行良好：“这里提供的 2-bit 量化并不是开玩笑：它们表现良好，可以在编程智能体下工作，并且能够可靠地调用工具。2-bit 量化采用非常不对称的量化方式：只有 routed MoE experts 被量化，其中 up/gate 使用 IQ2_XXS，down 使用 Q2_K。这些部分占据了模型空间的大多数；其他组件，包括 shared experts、projections、routing，则保持不变，以保证质量。”

关于为什么要给DeepSeek V4 Flash定制一个引擎，antirez是这么说的：“因为在将它与一些强大的较小型稠密模型进行比较后，我们可以这样说：

🌟DeepSeek V4 Flash 更快，因为它的活跃参数更少。🌟在思考模式下，如果避免使用最大思考长度，它生成的思考部分会比其他模型短得多，在很多情况下甚至只有其他模型的五分之一。更关键的是，思考部分的长度与问题复杂度成正比。这使得 DeepSeek V4 Flash 在启用思考的情况下仍然可用，而在相同条件下，其他模型实际上几乎无法使用。🌟该模型拥有 100 万 token 的上下文窗口。由于模型规模很大，当你在知识边缘进行采样时，它知道的东西更多。例如，询问意大利问题时，很快就会发现，284B 参数确实比 27B 或 35B 参数多得多。🌟它的英语和意大利语写作要好得多。🌟它给人的感觉近似于前沿模型。🌟KV 缓存压缩得非常厉害，使得本地计算机上的长上下文推理以及磁盘上的 KV 缓存持久化成为可能。🌟如果以特殊方式量化，它在 2-bit 量化下表现良好（后文会说明）。这使得它可以在配备 128GB 内存的 MacBook 上运行。🌟我们预计 DeepSeek 未来会发布更新版本的 V4 Flash，表现甚至会比当前版本更好。”AI创造营How I AI