DeepSeek创始人梁文峰再次开口,他说:“我们经常说中国AI和美国有一两年差距,但真实的差距是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。” 他这话算是戳破了行业里的一层窗户纸 —— 平时大家总念叨中国 AI 跟美国差个一年半载,其实根本不是这么回事,真正的鸿沟在于是自己琢磨出新东西,还是跟着别人的脚印走。 这层窗户纸不捅破,再追十年也只能跟在人家屁股后面当追随者,该走的探索路,躲是躲不掉的。 行业里不少玩家还陷在 “参数竞赛” 里拔不出来,比来比去就看模型参数量多大、能处理多少数据,跟菜市场比谁的菜堆得高似的,压根没琢磨底层的东西。 梁文峰倒是看得明白,AI 竞争的本质从来不是表面性能那点差距,而是原创和模仿的代差。你要是总盯着别人已经做成的东西抄作业,人家往前走一步,你就得赶紧追一步,永远慢半拍。 他自己的团队就是这么干的,没跟着凑热闹搞价格战、烧钱换市场,一门心思扎进架构创新里。 他们搞出的 MLA 多头潜在注意力机制,把显存占用压到了传统架构的 5% 到 13%,用十分之一的成本就能达到顶尖性能,这才是原创力的实在体现。 不像有些厂商,明明是模仿别人的架构,换个皮就敢叫 “自主研发”,稍微改改参数就吹嘘 “超越同行”,短期看着热闹,长期根本站不住脚。 更关键的是话语权的问题。现在全球 AI 的技术标准基本还是 OpenAI、Meta 这些美国公司说了算,他们闭着门搞研发,定好规则让别人遵守,中国企业要是一直 “搭便车”,永远只能在别人画的圈子里打转。 梁文峰偏偏反着来,别家都在往闭源的路上走,DeepSeek 却把所有模型都开源了,从 MoE 到多模态一个不落,还挂着 MIT 许可证开放权重,就是想拉着全球开发者一起建生态,把话语权从 “闭源垄断” 手里抢点过来。 他们的开源模型 R1 在 LMSYS 盲测里排到了全球第十七,比 Mixtral 8x22B 还靠前,这说明开源这条路走对了,不是单纯的商业策略,是真能靠社区共创拼出机会。 这种原创力不是凭空来的,得有能养出创新的土壤。DeepSeek 内部的规矩就挺有意思,研究员要调算力不用层层审批,千卡级的实验说启动就能启动;也没有 KPI 压着,就算是失败率极高的探索也能放手去试。 这要是换了别的大厂,可能早就被 “效率优先” 的规矩卡得死死的。他们招人也不看什么名校光环、几年经验,就认 “解决问题的能力”,公司里三十岁以下的员工占了七成多,90 后的技术骨干就能牵头搞出 MLA 架构这种核心突破。这种不被经验捆住的氛围,才能让新想法冒出来。 梁文峰自己也没闲着,每周还保持着四十小时写代码的习惯,要求团队多琢磨怎么解决问题,别总想着重复造轮子。他们团队一年要读两千多篇论文,不是为了应付考核,是真要从里面找灵感、找方向。 这种劲头跟那些只想着短期变现的团队比,差别一下子就显出来了。毕竟 AI 这行,靠烧钱补贴抢市场都是虚的,能靠技术创新把成本降下来、还能盈利,才是真本事。 美国那边的领先,说白了是人家有持续迭代的 “技术路线图” 社区,从底层逻辑到应用场景都是自己趟出来的。 中国以前不少团队依赖 “二手信息”,人家发布个论文、公开个模型参数,赶紧拿来拆解模仿,看着差距在缩小,其实根基没打牢。 梁文峰他们搞自研训练平台 “萤火二号”,从芯片到算法一点点搭起垂直整合的能力,就是想把这个短板补上。不然人家哪天把技术壁垒一筑高,模仿的路就被堵死了。 现在行业里终于有人愿意说真话了,不再捧着 “差距一两年” 的说法自我安慰。原创这事儿,说起来容易做起来难,要耐得住寂寞,还得扛得住失败,不像模仿那样立竿见影。 但要是绕开这条路,中国 AI 永远只能做追随者,人家定规则、赚大头,我们捡点边角料。 梁文峰说有些探索逃不掉,确实是这个理儿 —— 你不自己趟出条原创的路,就只能在别人的路上跟着走,什么时候被甩开都不知道。 那些还在参数竞赛里打转的厂商,真该好好琢磨琢磨这话。AI 这行拼到最后,拼的不是谁的嗓门大、谁的补贴多,是看谁能拿出别人没有的东西。 DeepSeek 用开源破闭源、用架构创新降成本的路子,已经算出了一步好棋。 接下来就看更多人能不能跟上,把原创的火苗烧得更旺点。毕竟追随者当久了,就再也没心思当领跑者了,这可不是中国 AI 该有的样子。 参考资料:台海网
纽约时报终于反应过来了,不过好像有点晚。纽时的观点称,如果两国都按照目前的轨
【14评论】【56点赞】
康群
[赞][赞][赞]