⚡️VLA-科普贴
全拼是Vision-Language-Action,视觉-语言-行动模型,简单来说,就是像人类一样,通过眼睛-看、通过语言-描述,以及最后的落地行动。
这个大模型的用处,其实是在补强目前规则之下的场景盲区,比如,红绿灯左转,但是头顶屏幕上写着“车辆左转不受灯控”,那VLA就可以通过,而之前规则之下的模型没见过,那基本就是歇菜了。
VLA为什么大家都觉得强?那就是因为这个模型可以在面对自己没有见过的场景时,能够主动去尝试给出解答,这个是非常戳用户好感的地方。
都不绝对,我都是举例子,别较真。
想子做得很棒的地方在于,它把VLA的工作流直接展示在智驾界面,比如VLA非常强的长时序规划,你能够看到VLA的分析,还有给智驾下的指令。虽然这个操作炫技的效果大于实际的落地效果。
这个我必须提一下子,理想确实是VLA用得很好的公司,但其实还有一家大家真忽略了,那就是元戎,他们的方案落地在魏牌、smart上,表现也很不错。
⚡️弊端
弊端当然有,VLA需要高质量的数据,这个对于数据获取和分类要求很高,而且地平线的人反复强调过一个点,那就是智驾传感器的统一性,会很大程度影响数据的质量。
还有一个弊端,那就是VLA有黑箱问题,这个在“端到端”概念火起来以后,大家就注意到了。同一个场景,大家很难解释,为什么智驾要这样做,哪怕复现后,智驾也可能会选择和上一次不一样的方式去解题。
而黑箱最大的问题,是因为不可解释的黑盒之下,会有比较大的安全性问题,因为无法复刻,只能通过云端大模型迭代去尝试解决,对是尝试解决。
⚡️结论
我的结论是,VLA在优质数据加持下,确实可以实现智驾能力的快速提升,但它不是终局方案。而世界大模型在概念上确实要更近一步接近终局,后续有机会再聊这个。