BigBite思维随笔分享特斯拉FSD就是一个端到端大模型的视角2026年1月2

福亿戏说汽车啊 2026-01-25 00:56:57

BigBite思维随笔分享特斯拉FSD就是一个端到端大模型的视角2026年1月24日BigBite思维随笔发文《为什么说Tesla FSD就是一个端到端大模型》,主要针对《刘延说特斯拉FSD是近200个小场景模型的组合》的回应理想自动驾驶负责人郎咸朋在BigBite思维随笔这篇文章评论区评论“赞”。图1以下为原内容:最近几天有人根据快一年前(2025年4月)著名Tesla黑客green爆料的Tesla FSD芯片上有上百个神经网络文件的信息,断言Tesla FSD其实是数百个小场景组合,然后还说马斯克的特长是把“落后”的东西组合起来形成非常好的工程化效果,原链接贴在这了。本来我对此感觉比较搞笑,没想到一早上起来好几个朋友问我意见,索性就把我回答他们的内容稍微整理下发出来。先说结论:Tesla FSD就是一个大模型,这点Ashok在今年ICCV上已经给过一个端到端模型的简单示意图,确认了Tesla端到端自动驾驶使用的是一个巨大的神经网络来完成Photon In到Control Out的计算。ICCV Ashok分享的TeslaFSD是一个大模型的架构图2质疑FSD不是一个大型网络的主要观点在于green发现FSD有数百个神经网络参数相关的文件,并且其总规模相当大,HW3上的v12.6上A核1.2GB,B核2.3GB,HW4上的v13则达到A核2.3GB,B核7.5GB,其中A核包含189个参数文件,B核110个,其中61个共享。green发现的FSD模型参数文件信息图3这里可以发现B核神经网络参数远多于A核,同时A,B共用的只有61个参数文件,也就是说早年AI Day上分享的A,B核互成冗余的设计实际上在Tesla V12端到端化之后神经网络规模急速膨胀之后已经很难实现完全的A,B核冗余(其实传说中V11阶段就很难实现完全的冗余备份了)。而B核参数文件数量虽少,总文件大小却更大,其实原因在于后期端到端的模型规模远超从前,而这部分模型参数主要集中在B核。也就是说在green挖掘出来的模型参数文件中,有数量众多但规模不大的参数文件可能不属于端到端网络。这比较合情合理,因为Tesla是一个不使用雨量传感器的公司,其自动雨刷甚至都是有一个饱受诟病的视觉神经网络控制,再加上大量进行数据采集trigger相关的小的感知任务依旧大部分从V11以前继承下来,因此这里边大量的模型参数文件其实是一些小的任务Head的模型参数。另外green的发现其实提到这里边很多模型参数其实是一个大模型的部分参数,有着FSD_E2E_FACTORY_PART_X这样的命名规则。AI Day上Tesla曾介绍其模型是通过分布式部署的,因此将模型参数分片存储或者进行切分存储在不同芯片上实际上是大模型时代里比较常见的现象。而让人们怀疑Tesla并非是一个大模型的更重要的原因来自于Tesla有限的显存带宽很难支持使用规模巨大的端到端模型并保持其号称的36Hz高频Control输出。确实HW3使用的LPDDR4-4266带宽只有68GB/s,要支持36Hz输出,模型参数规模理论上不超过1.8GB,Tesla HW3仅对INT8支持良好,因此这也就是说FSD 12稠密计算的理论上限大概就是18亿参数,而考虑到理论实际的差异,这个数字更难达到。刚才说过,green发现HW3上承载大部分端到端参数的NodeB上参数文件大小2.3GB,大致上与此匹配。而HW4上Tesla使用了成本高昂的GDDR6显存,显存带宽高达384GB/s,有消息称HW4上Tesla使用FP8的参数类型,而这样的模型理论上可以在36Hz支持约100亿参数的端到端模型。参考HW3与HW4 NodeB的参数文件大小,基本上与Tesla FSD Release Note之前说的参数量增加3.5倍左右可以对应起来,因此我认为这个3.5倍模型参数增长我认为是可信的。而Elon曾说后续还会以10倍的增量提升FSD参数,这个被很多人质疑,原因就是目前看来无论HW3还是HW4上,显存带宽留给参数scaling的空间已经不足了。关于这个问题其实在财报会议上Elon和Ashok都给出了比较明确的回答,之所以Tesla在19年的HW3和23年的HW4这样相对比较老的芯片上能够以非常高的频率运行令行业比较震惊的端到端大模型规模(某国内头部端到端方案传闻0.7B模型参数量),其原因就在于Tesla使用了类似MOE的架构。通过MOE架构,FSD可以在显存容量可以容纳的基础上,通过部分激活专家网络,节省显存带宽开销,最大程度提升模型等效参数量。考虑到HW4上16G显存容量以及可能的模型并行部署策略,HW4上FSD V14模型参数再大幅增加,我觉得也不是不可能。并且通过Elon的评论我们还知道,Tesla可能确实会在某些场景,如厂区自动出场使用一些Localized参数,我的理解这些是通过类似MOE的方式增加的额外专家参数,各种场景主要参数都是公用,这也符合无论什么场景,大部分驾驶是有共同性的这样一个第一性基本原理。而那种原文所谓的根据人工设计的规则完全切换一套独立的小模型的方式不仅不端到端,甚至实际很难实现,因为在场景切换的过程中很难保证前后模型输出的轨迹可以平滑连接,必然会造成很不舒适甚至危险的情况。Elon和Ashok对于FSD使用MOE架构的评论图4总而言之,Tesla FSD是一个端到端的大模型方案。根据ICCV上的分享,其端到端的程度甚至可能超出此前的普遍估计。至于说FSD其实是落后的技术方案更是无稽之谈,作者感觉对技术先进性有一定的误区,不是只有科学家的发现才代表先进性,许多人类伟大科技进步都是技术进步。就好像可回收火箭是先进的科技进步,利用猛禽发动机组合阵列的方式获得巨大推力推动星舰也是先进的科技进步,火箭相关研发人员经常被称作火箭科学家,但是火箭技术成熟落地依靠的其实更多是工程创新。另外马斯克是美国工程院院士。如果这样人以及Tesla,SpaceX这样的公司都是落后的,伪装的科技公司,那么请告诉我哪家是先进的科技公司。原文对先进落后的评论图5理想汽车理想汽车理想i6理想i8理想MEGA理想VLA理想L6理想L7理想L8理想L9自动驾驶

0 阅读:0
福亿戏说汽车啊

福亿戏说汽车啊

感谢大家的关注