【DeepSeek V4适配国产芯片！摩尔线程MTT S5000实现Day-0支

【DeepSeek V4适配国产芯片！摩尔线程MTT S5000实现Day-0支持】今日，DeepSeek正式上线V4预览版并宣布开源，该模型支持百万字超长上下文处理。

摩尔线程联合智源众智FlagOS社区宣布，在旗舰AI训推一体GPU MTT S5000上，完成对DeepSeek-V4-Flash大模型的Day-0极速适配，并实现全量核心算子深度优化与部署支持。

DeepSeek-V4-Flash采用MoE架构，总参数284B、激活参数13B，支持百万Token上下文，首次采用FP4+FP8混合精度，对算力芯片提出更高要求。

摩尔线程MTT S5000是国内率先原生支持FP8的全功能GPU，搭载硬件级FP8 Tensor Core，相比BF16/FP16可将显存压力降低50%，计算吞吐量翻倍。

本次适配由智源FlagOS完成FP8量化，团队聚焦FP8算子与Sparse Attention算子两大关键，通过两大方向实现突破：

一是依托FlagTree编译器做精细化shape对齐与矩阵计算加速；

二是通过FlagOS-Tune自动搜索最优内核配置，效果超越手工调优。实测显示，开启自动调优后TTFT时延降低16.5%，ITL时延降低39.7%，吞吐量提升65.7%。

目前，双方已完成DeepSeek-V4-Flash适配，并正在推进更大规模的DeepSeek-V4-Pro（1.6T）在MTT S5000上的迁移适配。

开发者可在魔塔、HuggingFace下载镜像开箱即用。

万益资讯网