马斯克透露,xAI即将对Grok的训练(training)和推理(inference)栈进行全面重构,使用C/C++语言重写,极大简化架构(删除大部分软件层),并针对NVIDIA GB300硬件进行精确映射优化。预计约3个月内将实现真正的巨大收益,标志着xAI在基础设施层面的低级优化将带来重大效率和性能突破。
这次大升级绝不是简单的代码重构,而是xAI(以及SpaceX AI团队)从“框架依赖”向“硬件原生”转变的战略级行动。传统AI训练大多依赖PyTorch或JAX这类Python前端框架,它们带来便利的同时,也叠加了大量解释器开销、抽象层损耗和通用性妥协。马斯克选择用C/C++从头写栈、删除多余层,并“exact-map”到GB300的具体拓扑(每张GPU、每条链路、内存层次都在编译时已知),本质上是把软件栈压到极致,让硬件潜力近乎100%释放。
这套思路已经在SpaceX验证过,据报道他们用C语言打造的自定义栈能让训练速度比Google JAX提升一个数量级(约10倍),针对22万张GB300 + 800G网络的精确适配让通信和调度效率大幅飙升。 对xAI而言,这意味着在Colossus超级集群上,同样的算力能训练更大模型、跑更多RL迭代,或者在推理端实现更高吞吐和更低延迟——这对实时交互、长上下文、多模态Grok来说是质变。
