前段时间,有幸跟小米智驾团队的几位领头人:陈光博士、陈龙博士、王乃岩博士做了一轮

梦香评汽车啊 2025-11-24 19:41:44

前段时间,有幸跟小米智驾团队的几位领头人:陈光博士、陈龙博士、王乃岩博士做了一轮交流,做个简单分享吧:目前已知的是,小米内部有三条线在同时跑:(陈光 端到端、陈龙:VLA、王乃岩 L3自动驾驶;)陈光博士带头的端到端路线,这是目前HAD量产的主线,广州车展上亮相的1.11版本,就是基于强化学习和世界模型的第一个全量版本。通过RL强化学习的方式,让模型在高质量的世界模型中不断的试错与环境交互,通过累积奖励让模型理解场景,学会驾驶。这也是行业达成共识的训练方式。我问了陈光博士一个问题,你们目前最大的挑战是什么?他的回答:「不是数据体量,而是高质量数据的获取」。小米用户在十一期间,跑了1亿公里,如果按照一个视频片段40秒、每秒跑20米、每小时跑80公里来粗略计算,拿到1000万个Clip(片段),只需要大概800万公里。如何在海量的平庸驾驶数据中,找到那些极具价值的“长尾数据”很难。当你把长尾数据挖掘出来,如何做泛化会更难。行业里有一种观点:差数据训练出来的AI,甚至不如程序员手搓代码好用。所以,这也是小米转向RL+世界模型的原因,但这个范式同样充满挑战。我个人理解,RL+世界模型有三个难点:1、如何保证生成场景在长时序上的逻辑自洽、物理真实?2、如何让仿真训练的经验无缝迁移到现实?3、如何设定奖励函数?强化学习的核心是“奖励”,但驾驶行为不好量化,应该用自监督还是人类监督?总之从理论到实践,从研发到工程落地,很难。在互联网上,认知>真相,但在用户端,体验>认知;所以小米这次的起调也是克制的,先交出版本,优化过去的问题、增强体验,通过更快速的迭代,来追进头部,我认为这个思路是对的。所以接下来,就看后续版本,小米能追到什么程度。等1.11全量的时候,我相信大家会有自己的判断。今天就先写到这里,下一期分享陈龙博士带头的VLA路线。他在2025年4月左右正式加入小米,此前在自动驾驶独角兽公司 Wayve 担任核心科研职务。我们最早了解的视觉语言自动驾驶,也是从Wayve的“Lingo”开始的。他也是影响Lingo落地论文《Driving with LLMs》的第一作者。陈龙又是如何看待如今VA、VLA的路线之争呢?

0 阅读:0
梦香评汽车啊

梦香评汽车啊

感谢大家的关注