如果按蔚来「世界模型」的定义小米、小鹏,部署在车端整个大的模型架构应该就是世界模型(当然名字不重要,我可以叫VLA2.0,甚至就是VLA)语言的部分被放在了感知端,但都具备思链 COT 能力,具备通识能力。所谓的通识能力,就是对所有场景的理解力,可以解决 corner case 的问题比如看到前方有“学校区域”标志 + 孩子书包掉在地上,它不仅能识别物体,还能推理:“可能有小孩会跑出来,必须减速!”遇到从未见过的场景(比如一只骆驼在长安街散步),它不会懵,而是像人类一样想:“这很异常,但根据常识,大型动物会缓慢移动,我该绕行并保持距离。”这个能力应该来自小米刚开源的基座模型 MiMo-Embodied最后世界模型会根据 VL(包括 L 的推理结果),进行预测,并路径规划。
