万益资讯网

谁也没想到,搞出DeepSeek的梁文锋,直接掀了英伟达的饭桌!他带人干了件最狂

谁也没想到,搞出DeepSeek的梁文锋,直接掀了英伟达的饭桌!他带人干了件最狂的事:只用5个月,把底层代码全迁到华为昇腾上,彻底不要英伟达的 CUDA 了。

过去二十年,CUDA 早已不是一个编程工具,而是 AI 时代的底层操作系统。全球 90% 以上的大模型都围绕 CUDA 生态开发,无数开发者、算子库、框架和工具链都深度绑定在英伟达的体系里。

任何一家公司想要脱离这个生态,都意味着要从零开始重写几乎所有底层代码,工程难度堪比 "在高速行驶的汽车上换发动机"。

梁文锋偏偏就这么做了。为了完成这次迁移,DeepSeek 团队付出了难以想象的努力。过去近五个月,在外界对 DeepSeek"迭代放缓" 的持续质疑声中,梁文锋带着核心团队几乎全员投入到了底层代码的重写工作中。

他们不仅要克服 CUDA 与华为 CANN 框架之间的架构差异,还要解决算子库、调度逻辑、系统稳定性等一系列复杂问题。有业内人士形容,这次迁移的工程量 "堪称爬雪山、过草地"。

硅基流动创始人袁进辉曾透露,为了在华为昇腾芯片上适配 DeepSeek,其团队与华为工程师整个春节假期都没有休息。经过深度优化后,DeepSeek V4 在华为昇腾芯片上的推理速度较初期版本提升了 35 倍,华为 CANN 框架与英伟达 CUDA 的代码兼容性已逼近 95%。

2026 年 4 月 24 日,DeepSeek 正式发布新一代旗舰模型 V4,包含 Pro 与 Flash 双版本。V4-Pro 拥有 1.6 万亿总参数,支持百万字超长上下文,在 Agent 能力、世界知识和推理性能上均达到国内与开源领域的领先水平。

更重要的是,DeepSeek 在官方技术报告中,首次把华为昇腾和英伟达 GPU 写进了同一份硬件验证清单,成为全球首个在国产算力底座上完成训练与推理验证的万亿参数级模型。

基于 DeepSeek V4-Pro 模型,在 8K 输入场景下,昇腾 950 超节点可实现 TPOT 约 20ms 时单卡 Decode 吞吐 4700TPS;V4-Flash 模型在相同场景下可实现 TPOT 约 10ms 时单卡 Decode 吞吐 1600TPS。这样的性能表现,已经完全能够满足绝大多数商业应用的需求。

DeepSeek 的这一举动,在全球 AI 圈引发了强烈震动。英伟达 CEO 黄仁勋在 4 月中旬的一次访谈中坦言:"DeepSeek 如果选择在华为芯片上完成首发,对美国来说将是一场灾难。"

更具标志性意义的是,DeepSeek V4 发布当天,华为计算立即宣布昇腾超节点全系列产品全面支持该模型。随后短短几天内,沐曦、寒武纪、摩尔线程、天数智芯、海光信息、壁仞科技等 10 家国产 AI 芯片企业相继宣布适配 DeepSeek V4。这意味着,DeepSeek 不仅为自己找到了第二条路,也为整个国产 AI 芯片生态打开了一扇大门。

DeepSeek 与华为昇腾的成功合作,标志着中国人工智能产业在降低对 CUDA 生态依赖方面取得了重要进展。它打破了此前行业对于 "高端 AI 训练只能依赖英伟达" 的固有认知,证明了国产大模型和国产算力芯片已经能够打通从训练到部署的全流程。

梁文锋曾说:"我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。" 但这次,他显然是有意为之。他用五个月的时间,掀翻了英伟达垄断的桌子,也为中国 AI 产业的未来打开了无限可能。随着下半年昇腾 950 超节点批量上市并部署,DeepSeek V4-Pro 版本的价格将大幅下调,这将进一步推动 AI 技术的普及和应用。

在大国博弈的背景下,科技自立自强已经成为必然选择。梁文锋和他的 DeepSeek 团队,用实际行动证明了中国企业有能力在 AI 这个前沿领域走出一条属于自己的道路。未来,随着更多国产大模型和国产算力芯片的崛起,全球 AI 产业的格局或许将被彻底改写。

评论列表

愤怒的小黄瓜
愤怒的小黄瓜 2
2026-05-31 18:04
国之大幸,希望善待人才