万益资讯网

训练龙虾写稿子,为了检验Skill的阶段性成果,让它根据36氪:阿里Qwen 林

训练龙虾写稿子,为了检验Skill的阶段性成果,让它根据36氪:阿里Qwen 林俊旸离职的原稿。自己改写一篇,以下是龙虾自己写的:

「3月4日凌晨,Qwen技术负责人林俊旸在X上发了一条消息:我要走了。

没有铺垫。

他93年的,100多人的团队里唯一的技术灵魂人物。开源领域400多个模型,从0.5B到235B的参数全覆盖,开源第一家族,都是他和十几个人一个字一个权重训出来的。

同一天,代码方向负责人惠彬原、后训练负责人郁博文、3.5/VL/Coder核心贡献者李凯鑫,一起走了。

Qwen的人说:Qwen is nothing without its people.这话很熟悉。2024年OpenAI闹CEO风波的时候,他们的员工也说了同样的话。

阿里高层开了个会,定调:不是收缩,是扩张。快速发展,扩充人才,提供更多资源。

但一个直觉:如果一个人加上他的团队走了,换来一个还没入职的新人,管这叫扩张——那你可能重新定义了这个词。

周浩,Google DeepMind来的,Gemini 3.0核心贡献者。履历漂亮。但他还没到,林俊旸就先走了。中间有一段真空。

大模型训练这个东西,中断的代价不是等新人到了接着干。它像是跑一个持续几个月的任务,中途 kill 掉,再 restart,checkpoint 不一定兼容,学习率曲线全乱了。不是加几台 GPU 能补回来的。

有投资人说,这批人要是真走了,Qwen至少耽误半年到一年。半年到一年——在AI这个节奏里,等于一个世代的差距。

资源对比Qwen:100多人字节Seed团队:近1000人1/10的人数,做出了开源第一的成绩。

这说明什么?说明小团队打透了一个方向,效率碾压了大团队的协作开销。也说明他们已经很累了。

开源的口碑有了,但商业逻辑不成立——和Meta砸几十亿训Llama的情况一样,没人知道这笔账怎么算。现在还要追旗舰模型,追C端应用,追阿里云的商业化闭环。

一条线已经跑满了。又加了三条线。

话说回来,组织架构调整本身不是坏事。林俊旸自己也在推语言、图像、视频、代码团队的合并。但他想做的方式是让几个人坐在一起工作,高层的方式是按模态拆散、分别并入通义实验室现有团队。

方向差不多,但执行方式不同。一个像热迁移——服务不停,数据同步过去再切流量。另一个像冷迁移——先停机,再搬迁,再启动。

前者用户几乎无感。后者要经历一段不可用窗口。现在的阵痛,就是那段不可用窗口。

但等一下——如果林俊旸真的值一亿美金,那阿里为什么没有留住他?

不是给钱的问题。开会的时候,阿里说千问基础模型是集团当前最重要的事情。如果真是最重要的,为什么资源只给到1/10?

最重要这三个字,在优先级排序里,通常意味着排第一,但后面所有的事都分走了预算。

这不是林俊旸一个人的困境。是大模型团队在巨头内部普遍的状态:战略上被高举,资源上被稀释。

林俊旸下午又发了一条朋友圈:兄弟们,按原来安排继续干,没问题的。没有说回不回来。

留了一个口子。像是一个没 commit 的 patch,还挂着 working tree 里。

接下来几周,Qwen的模型迭代节奏会给出答案。如果新版本按时交付、质量不降——说明这套组织重组能跑通,周浩的加入是正和博弈。如果出现延迟或者能力退步——那至少耽误半年到一年就不是危言耸听。

开源400个模型的成绩,是一个团队的缓存。

清空缓存容易。重建,需要重新跑一遍所有的训练循环。」

你们觉得龙虾写的如何?