和大家聊聊小米HAD世界模型和强化学习慢慢变成一种协同关系。飞猪老

和大家聊聊小米 HAD 世界模型和强化学习慢慢变成一种协同关系。飞猪老师采访了陈龙和王乃岩两位博士，非常推荐大家看看。这次在体验视频解密前也和大家聊聊小米HAD：1、HAD 增强版什么时候可以推？我们体验视频已经剪辑好了。解密后第一时间和大家分享，现在还在等工信部OTA审核，用户版本也会在年底陆续推送。这次体验最大的变化不是某个能力上的提升，比如舒适。而是从结构上带来整体的升级，重点围绕两个板块，第一是认知推理、第二是决策优化。所以整体能力在认路、舒适性、安心感上都有提升。但这两个升级也带来一些策略上体验依旧会有争议，比如行人该不该这么礼让？两轮车的博弈如何处理？后续我们视频和大家聊聊这一点。2、小米 HAD 和 XLA 是什么关系？ HAD 增强版实际才是这次的升级版本，今年年底前也是只有这一版本。 HAD 增强版是今年强化学习+世界模型的一个重要的成果，所以这也是为什么我们说它是系统级架构升级的原因。 HAD 是一个产品名称，XLA 是一个大模型架构，这样理解大家就不会乱了。从飞猪老师公开采访看，小米未来的路径还是会走 VLA ，VLA 是一个更大的大脑，未来有很多小脑，比如智驾只是其中一个小脑。这样看，XLA战略意义有多大，大家应该有概念了。3、VLA、世界模型和强化学习，又是什么关系？ -强化学习是一种策略学习的方法。强化学习其实哪都能用。VLA、世界模型或者传统端到端结构都能用，但是过去很多车企不太重视，也不重视数据闭环。强化学习是用一个奖励信号来提高系统的判断能力，做对才有糖吃，记得行业最早最早是Momenta提出来的。 -世界模型更像一个开放的游戏。它实际就是一个推理的大脑，负责预判环境中的实时变化。就像游戏过去我们就在一个地图里跑，世界模型更像一个开放世界。你走过的路，左右转，系统都要实时给你模拟出来，这个就像世界模型，它可以做生成式，也可以做场景的编辑。所以到这里会发现，如果我们在世界模型上加上强化学习方法，就可以把一套端到端结构做训练。强化学习是一个开放游戏，端到端直接在里面开车，强化学习就是一个教练，通过奖惩制度给它训，这就是 HAD 增强版这次最大的变化。世界模型的门槛核心依赖还是你本身的数据，你的世界模型质量越高，你出来的端到端策略才会更好。所以这些都变成车企的一套独有的数字资产。 -VLA 则是一个以语言为中介，链接环境和控制的一套端到端结构。 VLA 生成的精准动作指令，也能让世界模型更清晰地理解动作与环境的关联，比如 VLA 在机器人抓取任务中输出的夹爪开合、位置移动等，会反向提升世界模型对 “动作如何影响物体状态” 的判断能力，让世界模型预测的未来更符合物理规律。所以从目前看三者的关系更像一种协同，而不是一种选择关系。反而他们慢慢可以构建起一套更高效可靠的从行动的智驾到具身智能的闭环，这应该也是小米集团整个智能化的终局方向。

0 阅读：0