Ashok 阿肖克·埃卢斯瓦米(Ashok Elluswamy,特斯拉AI副总裁)在ICCV上的演讲透露了他们收集哪些真实世界的数据。
可以对比一下特斯拉和蔚来收集哪些数据:
Tesla通过强大的数据引擎(Data Engine)来应对此挑战,致力于采集大量高质量数据。Tesla车队每日可产生相当于500年驾驶时长的数据,但其中多数为常规场景。为此,Tesla采用了复杂的触发机制来回传长尾场景数据,如使用专用模型采集特殊车辆数据、基于预测偏差回传bad cases、收集所有用户接管数据,以及感知状态突变的场景。高效的数据筛选与回传机制,使得Tesla能收集海量的极端场景和主动避险数据,确保FSD模型具备极强的泛化能力。
对比一下任少卿对外透露的蔚来收集的数据:
我们建了三套数据系统。
第一套是 DLB (Data Loop Back 数据闭环系统),就是通过代码和模型自动筛选数据,形成有用数据进入训练/标注流程。
第二套是伴生系统,相当于车上有两套系统,一套跑用户功能,一套跑测试功能,就像互联网的 AB Test,把切流量的能力引入到车端。这样我们在主动安全上的迭代速度就比同行快很多,因为主动安全对误刹的要求极高,靠车队测试根本不现实,必须靠这种规模化的系统切流量去验证。
第三套是 RAMS(Risk Assessment and Management System 风险评估控制系统),它用来解决量产车每天上百万次接管怎么自动化分析的问题,做到每天消化几百万、上千万次接管数据。
从数据系统角度来说,我们现在的数据系统覆盖国内外车厂及方案供应商,应该是最顶尖之一。