万万没想到,DeepSeek的创始人梁文锋,连续三年收到美国方面的学术交流邀请,每一次都被他干脆利落地拒绝了。
梁文锋1985年出生在广东湛江吴川一个普通家庭,父母是小学老师。他从小数学特别强,初中就自学大学课程。2002年考上浙江大学电子信息工程专业,后来读信息与通信工程硕士,研究机器视觉。
2008年金融危机时候,他在学校就开始和同学用机器学习搞量化交易尝试。毕业后先去成都试着把AI用在其他领域,没成功,就转回金融方向。
2015年,他和浙大校友一起在杭州创办幻方量化,专注AI驱动的对冲基金。
2016年10月21日幻方推出首个AI模型,到2017年底几乎全策略都AI化了。
2019年管理规模过百亿,那年梁文锋在金牛奖活动上讲了自己对量化未来的看法。同一年团队投近2亿做萤火一号超级集群,装1100块GPU。
2021年萤火二号花10亿,用上约1万张A100卡,规模冲到千亿,进入国内量化前列。这些经历让梁文锋积累了大规模算力管理和优化经验,为后来转AI大模型打下基础。
2023年5月梁文锋决定进军通用人工智能,7月17日幻方旗下的实验室独立成DeepSeek公司,他担任创始人兼CEO。
公司主要靠自有资源起步,初期招很多年轻人才,强调创造力。参考过去在幻方盯代码、解问题的习惯,他继续把精力放在模型优化上。
2024年12月27日前后DeepSeek发布V3模型,671B参数MoE架构,训练只用约278.8万GPU小时,成本大致557万美元,主要基于H800芯片。
团队用了MLA等创新技术,提高效率,发布详细技术报告。
2025年1月20日又推出R1模型,专注强化学习提升推理,在数学代码等任务上表现突出,同时开源权重,还上线免费App。
结果R1在美国App Store下载很快超ChatGPT,引发市场关注,NVIDIA股价那天明显波动。
梁文锋团队把从量化基金带来的分布式训练框架和优化方法,用到大模型上,适应芯片限制情况,实现了低成本高性能。模型很快适配华为昇腾等国产硬件,2025年2月多家厂商确认运行成功。
这条路让国内很多企业能用得起AI,推动行业价格调整。
2025年1月20日梁文锋参加国务院总理李强主持的专家企业家座谈会,分享看法。之后他还出席其他国内重要会议,反馈产业发展情况。
4月17日NVIDIA CEO黄仁勋来北京时,据报道和他见面讨论中国市场芯片设计,体现务实互动。梁文锋保持低调,几乎没个人社交账号,不常路演,更多时间在实验室和社区看反馈改代码。
从浙大求学到幻方积累,再到DeepSeek突破,梁文锋的团队坚持开源,通过GitHub反馈迭代,同时保护核心细节。
2025年他团队论文陆续发表,包括2月18日Native Sparse Attention等,还和北大合作研究。DeepSeek模型扩展到更多场景,落地工厂企业反馈好。
梁文锋拒绝邀请不是一时冲动,而是基于过去经验,知道技术路径需要自己守住。DeepSeek用实际产品证明,中国AI能在资源条件下找到高效方式,继续往前走。
