
在2025年8月的最后一周,中国的智能驾驶突然被压到了快进键 - 从算法基地到整个OTA车辆,该行业在短短几天内就展示了“ VLA爆炸”的场景。
VLA,尤其是视觉行动,语言的模型。 VLA的快速商业化将重新定义“高端智能驾驶”的技术门槛。
首先,Perfect Auto使用纯电旗舰i8启动窗口将“ VLA驱动程序模型”推向所有用户; Yuanrong Qixing正式发布了VLA于8月26日开发的VLA车型,该模型于8月26日推出了一个名为DeepRoute IO 2.0的新平台,并被确认用于5种型号,覆盖了约200,000辆汽车。
此后,米彭电动机立即在8月27日举行的新P7发射会议上推出了新的Henethe VLA建筑,声称延迟了100毫秒,计划的帧速率为20 Hz,并激活了质量的天花板。
在同一ti我,由华为-WA(世界行为模型)代表的另一条主要路线也紧密烹饪。 ADS 4.0将是9月的年度M9的年度改心OTA,试图重新定义城市智能驾驶的基线体验。
“ VLA乘车浪潮”发生在2025年。从商业角度来看,这是因为今年在Urban NOA(L2 ++)的大量交付与Robotaxi(L4)的商业化之间的“间隙期”。任何首先完成VLA生产的人都是用户体验和融资叙述的第一阶段。如果您错过了2025年,那么技术股息将融化,而成本的优势是成为供应链的造成的。
VLA发起的比赛的新扭曲不仅将决定中国汽车公司的未来竞争地位,而且还可以触发整个智能驾驶行业的改组。
新阈值
如果您想提供简短的总体 - 技术优势VLA路线几乎是:
与传统的端到端路线相比,VLA使用语言和文本作为中间链接,以对混凝土道路条件和图像进行分类,而不是“记住”您所看到的数据,以便该模型总体上可以实现更好的功能。
同时,在具有思考能力(COT)之后,VLA模型可以将决策分解为逻辑相互关联的中间度量,改善决策逻辑,系统解释和一般一般能力。
当男人的驾驶员面临意外的道路状况时,他自然完成了“观察→判断→行动”的认知过程。
VLA(视觉语言动作模型)使用这种逻辑来模仿此逻辑,以生成“视觉感知语言推理输出”的闭环系统,从而实现了预测数十秒钟的长期道路条件的能力,尤其是在诸如CO之类的长期术语中,n构建部分。
但是,由于数据的附加“语言”层,洛杉矶的vang食欲是计算和数据的强度,这使“加入车”的门槛提高到了传统解决方案的高度。在计算能力的一边,通道的末端必须经过22吨数据多模式级别,并且单个实践等于DeepSeek-V3的1.5倍;
在数据侧,VLA需要与视觉语言动作三重相一致并标记。用于完美培训的数据,有90%来自29.3亿公里的真实汽车日志,而10%的数据是通过生成模拟补充的。很棒的场景(下雨的夜晚,建筑和特殊形状的屏障)需要额外的数据密度的5-10倍,与端到端时期相比,自行车数据的成本急剧增加。
在计算能力方面,Perfect和Xiaopeng分别使用13个Eflops和8个Eflops Cloud簇,只有1磅的WeekLY调度可以符合30 B-72 B参数模型的收敛窗口。 Ipublic数据表明,国内中小型汽车公司的云簇通常保持在0.2-0.6 Eflops,仅是完美的5.39 Eflops的二十分之一,更不用说Tesla Dojo在年底的100 eflops命令。
以Nezha为例,180 Pflops的RainQAB GPU簇峰不足以在30天内完成7 B参数VLA模型的收敛性;如果租用了公共云,则根据当前的A100/H100价格进行转换,单个培训将需要1.2亿至1.5亿元人民币,这相当于2024年的年度研发预算的40%。
这意味着将VLA的质量制作是一个激烈的项目,“千卡瓦训练云 +千端车辆 +十倍 - 十亿个数据”,在三行中,任何空间都是希拉林的ROI,负数为负值。
对于中小型汽车公司,年销售额超过100,000辆汽车,如此高的投资很难按规模解散,失败的风险很高。正如Yuanrong Qixing的首席执行官周期所教导的那样,一家智能驾驶公司将不得不交付100,000级的大型大型汽车,以建立开发VLA建筑的基本数据基础。
更重要的是,从VLA政策时期的过渡不是折叠的跳跃,而是应“淬灭”的链条反应到工程实践。
行业改组
面对高昂的成本需要VLA路线,汽车公司中小型面临的生存困难正在变得清晰。作为Karagat,计算和数据的强度差距,从政策期到端到端1.0积累的第一步优势建造的技术护城河也是大多数第二层品牌难以复制的主要链接。
最初,规则算法使用明确的代码和手法 - 拆卸驾驶ActivitIE在经过验证的模块中,使团队具有对场景的含义和负责任的系统思维和概述;
输入端到端1.0后,系统首次使用大规模注释数据替换了手动策略,迫使组织完成闭环,工具链和DevOps的原始数据积累,同时暴露了长时间的情况。
最后,当朝VLA迈进时,需要移动,团队是在整个新框架中在前两个阶段积累的工程积累,以产生高度的“视觉语言”统一性。
理想汽车的李Xiang曾经说过,如果企业无法正确制定规则算法,它将无法弄清楚如何培训VLA模型。
在一个空间下,VLA路线的到来无疑将带来“大型改组”。中和低端汽车公司和品牌发现很难在新季节生活,或者只能是汽车公司的“项目买家”或Foxconn,甚至是较低的铸造厂,并且筹码工厂和算法公司都会食用收入。
在端到端1.0 ERA中,尽管大多数中高端汽车很少在“数据模型芯片”三件套件中完全发展,但它们本质上是“构件式”式的集成。
但是过去,汽车公司可以为Orin,算法和标签付费,每个人都可以过上美好的生活。
例如,Nezha,Zero Racing,Baojun等通常使用NVIDIA ORIN-X或HORIZON TRAVER 5的“公共领域控制”;在数据方面,零赛车C10的有效里程为2.1亿公里,Muna和Juefei Technology完成了60%的标记任务;
但是,在端到端的2.0时代,流量本身的供应商在2.0 ERA-DAID上“外包生存”是“关闭的”,以实现VLA路线造成的计算能力和数据成本的突然增加,这三个是“有限的模型”,有限的权利掌握在SMA的手中。巨人的数量。
例如,NVIDIA今年的第一批生产能力长期以来一直在2024年签署了理想的Nio和Xiaopeng,并拿走了32万件,在股票区域只有80,000件,可竞购30%的溢价。
开放式供应链最初是“可以购买的任何人”,由芯片缺陷和模型架构变化引起的算法进行了更改和构建,并且被压缩到“某些玩家的内部闭环”,甚至中型汽车公司甚至可以切断“购买”。
在这种情况下,中小型汽车公司面临的生存困难正在变得更加清晰。当领先的公司通过闭环“芯片数据模型”建立技术障碍时,中小型Companiesthe汽车陷入了一个死周期:购买芯片的配额没有,也没有购买型号的钱。
中小型汽车公司唯一可以做的是与供应链和AC结合使用通过传统联系(例如制造汽车,冲压焊接以及组装和试验)的最终产量和最终成本 - 这是富士康在手机行业中的作用。
头部变化
尽管今天的VLA模型非常受欢迎,但并非所有汽车公司都在智能驾驶方面认识到这条路线。
除了VLA路线外,华为和Nio目前正在推广另一条路线:世界模型(WA)。它的主要思想是“使用大量云模拟的数据让大型模型“理解“世界并学会驱动”。
例如,在华为模型(WA)世界中的AOF动作,使用生成的扩散模型“创建”角案,
也就是说,通过AI产生的大量视频案例,该模型了解了什么是物理政策。
Nio的Nio世界模型(NWM)将LIDAR +视觉压缩为3D令牌;然后,通过自回归模型在5秒后扣除框架中的许多场景,从而“思考”没有看到的道路状况。
WA和VLA之间的差异可以总结为:世界模型是“理想主义者的未来赌注”,VLA是“务实的当前安全性”。
但是从华为的角度来看,语言模型擅长于文本的推理,但缺乏准确的能力和在三维空间中运动的减少。
毕竟,汽车是移动真实空间的事物,略有差异可能意味着风险。
仅通过允许模型真正理解物理政策,我们就可以开始解决“只是模仿和不思考”的端到端模型的瓶颈。
但是,即使世界模式看起来更“最后”,但对于II和Xiaopeng等汽车公司来说,VLA路线的“务实” VLA路线仍然具有“改变命运”的重要性。
一方面,理想是在2024年以500,000次交付量增加新力量,但自行车的毛利润率从21.5%降至19.8%。扩大的市场范围完全被Hua包围Wei,Nio和Xiaopeng(例如华为询问M8和Nio Happy对话,直接在L7/L8中教授)。对于目标,冰箱,电视颜色,大型沙发不再是眼睛,产品应以智能重新定义。
木蓬目前正在纯电气市场上获得比德和特斯拉,这些机器人还促进了通用的AI端口。米彭选择了VLA混合动力车的建筑,该建筑本质上是“用石头杀死两只鸟”:72B Cloud Dock模型本质上是VLA的巨大版本,该版本不仅为汽车提供服务,而且还为未来的机器人服务。
对于这两者来说,VLA都是唯一可以一口气吃长时间尾巴的可行轮廓,并且数据密度完美地积累,而小米足以让VLA越过“死亡谷的冷启动”,这是后来者无法复制的障碍。
从市场前景来看,尽管华为和Momento在2025年征服了90%的明智市场驾驶。很难动摇。此外,当前在智能中的华为位置并不取决于单个模型的大小和强度,而是在结合“数据 +硬件和软件 +汽车制造商”三位一体的护城河中。
但是,大型VLA模型的受欢迎程度将大大改变竞争风景,这在路线并恢复市场共享方面存在差异。
智能驾驶的传统模型是:模型记住您提供的许多情况和样本,并且应为每个新的稀有场景补充数据。华为实际上在这个水平上按比例粉碎了竞争对手。
但是VLA模型是不同的。它的魔力在于多模式的研究和推理能力 - 一方面,通过三个输入:“ Vision + Language + BES”,让模型更深入地理解”,不仅要记住这一点,而且还要学习这种人类的推理;它使理想者和小米等汽车制造商可以在长期场景中实现华为附近的性能。
ther因此,随着明智驾驶中新旋转的比赛,现有模式不会立即旋转,但VLA打开了一个新窗口。
可以说,随着技术升级的新循环的出现,中小型汽车公司的危机以及头部之间的差距的粘附将是一个更大的趋势。
2025年可能是华为和特斯拉的“峰值”时刻,也可能是实用vlas(例如Ideal and xiaopeng)的“反击的第一年”。
在这场争夺智能主权的战斗中,围困可能会损害不同优势的主权。