过去几年,智能驾驶领域的竞争焦点发生了显著转变。
最初,竞争集中在硬件层面,例如是否配备激光雷达、摄像头数量以及算力(TOPS)的水平。随后,随着大模型技术的兴起,竞争转向了端到端、VLA(视觉-语言-行为)和World Model(世界模型)等技术路线。
如今,越来越多的企业意识到,单纯拥有更大的模型已不足以构成代际优势。真正决定技术上限的是模型、数据、算力和芯片之间能否形成一个持续优化的闭环。
这解释了为何越来越多的汽车制造商选择自主研发。
特斯拉几乎掌控了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的全链条。在中国,小鹏、蔚来以及理想等车企也在不断向下游技术环节延伸。
在今年推出的L8和L9车型中,理想汽车已采用了自主研发的马赫M100芯片。该芯片采用了数据流架构,被理想汽车视为AI领域的重要技术方向。在此基础上,理想汽车还运行了自研的马赫VLA模型。
然而,对于整个行业而言,更值得探讨的问题并非“是否自研”,而是这些投入究竟能解决哪些实际问题。
带着这个疑问,我们采访了理想汽车自动驾驶负责人詹锟和芯片负责人谢炎。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了其自研芯片、数据体系及AI基础设施背后的设计理念。以下为部分访谈内容的编辑整理:
问:为在第四季度达到特斯拉FSD V14的水平,理想汽车还需要在哪些方面努力?
詹锟: 我认为追赶FSD可以从两个层面来看。
首先是基础体验,具体包括安全感、效率和舒适度是否能与FSD相当。FSD在安全感、效率和舒适度方面表现出色,这是其基本功。即使不选择极端路况,我们也能在这些基础体验上达到同等水平。
其次是能力层面,这一点追赶难度很大。例如,特斯拉能够识别并礼让特殊车辆,能在极窄的道路上精准感知通行,并且能识别交警的指挥,这些能力非常强大。
能力层面存在架构升级的机会。为何某些能力只有特斯拉具备?这可能与过去的范式限制有关,也可能源于架构或数据方面的因素。我们在这些方面进行了大量尝试。
问:我理解马赫VLA是一套技术体系,而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,目前的智能驾驶模型是否还包含“L”(Language语言)的部分?
詹锟: 当前自动驾驶架构的一个共同趋势是将VLA(视觉-语言-行为模型)与World Model(世界模型)整合。
从长远来看,所有技术路线都将朝着这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到语言。因此,语言部分是必然存在的,关键在于如何应用它。
对于机器智能而言,我认为基于视觉(Vision Based)的理解方式更为合理,它能够更好地处理空间关系、三维感知以及与环境的交互。语言当然也有其价值,在理解环境、交通规则、指令以及复杂决策等方面都能发挥作用。
从长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
谢炎: 如果要实现L3、L4级别自动驾驶,并解决更广泛的泛化问题,模型需要具备类似人类的思考能力。届时,语言的重要性将愈发凸显,这也是未来需要巨大算力的原因之一。
如果模型仅具备Vision和Action(视觉和动作)能力,即使拥有海量数据,在遇到分布之外的情况时也会束手无策。就像动物即使学会了所有常见情况,面对从未见过的情形也可能不知所措,无法做出正确的选择。
我们认为,随着自动驾驶向L3、L4级别迈进,需要解决的问题越来越接近90%、95%、98%之后的情形,即那些前所未见的问题,这要求模型具备人类般的思考能力。而这种推理和思考能力的来源,正是语言模型。例如,理解交警的手势,判断其意图是让你通行还是停止,这并非仅仅通过收集或生成数据就能解决。
问:随着理想汽车车队规模的扩大,从内部来看,数据的边际效应是否出现了衰减?你们如何定义有价值的数据?
詹锟: 首先,数据的规模必须足够庞大,核心在于收集更多的Corner Case(长尾场景)。目前,行业内有多种方法可以在车端部署优秀的Neural Trigger(神经网络触发器),用于判断场景的难易程度,并将关键数据回传。这也是特斯拉在这一领域表现强大的原因之一。
其次,数据质量至关重要,主要体现在行为质量上。如今,行业普遍趋向于端到端范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),核心都在于准确理解Action(行为)。因此,行为的质量,包括其规范性、一致性等,显得尤为重要。
关于数据规模扩大后的边际效应是否衰减,只要模型能力不断提升,向100分的目标迈进,其增长曲线必然是“对数曲线”,即增长速度逐渐放缓,而非线性增长。任何AI公司都面临此情况。虽然后期数据收敛的速度会变慢,但我们希望通过规模化来加速这一过程。
问:马赫M100芯片能够应用于多种AI场景。展望未来五到十年,理想汽车车内的算力中心是否有可能完全采用自研的马赫芯片?
谢炎: 尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体最核心的部分是AI算力。其他部分的集成度则不那么关键。因为座舱系统和AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而提高分配效率。
我们的路线图最终目标是构建一个车内的AI计算中心,所有AI任务都可以在此进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内也将是类似的设计,拥有一个Token Server(Token服务器)。
这个Token Server的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——包括内存和带宽的保障,可以避免被其他任务干扰,这是软硬件协同设计才能实现的。
问:是否因为M100芯片采用了数据流架构,相较于其他厂商的自动驾驶芯片,其对带宽的需求较低,但对片上存储的需求更高?
谢炎: 我们对带宽的要求确实较低,但这并非直接导致SRAM容量(非显存)设计的原因。目前HBM(高带宽内存)技术很受欢迎,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计是基于成本、综合性能等多方面权衡的选择。
简单地基于一两个指标来对比不同架构的设计,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但最终胜负并非由单一指标决定,而是取决于整个比赛的表现。
问:为什么目前主流的大算力芯片方案,如英伟达、小鹏、理想自研的芯片,都没有实现芯片级的舱驾融合,而高通却在低算力芯片上进行了这项尝试?
谢炎: 从本质上讲,座舱和驾驶是两个独立的系统。特别是对于高端L3向L4级别自动驾驶的演进,智能驾驶需要一个更高确定性的系统,包括专用的内存和计算资源。在这种情况下,融合的意义就大大降低了,因为资源无法实时切换,而切换会影响确定性。如果资源越来越倾向于独占,融合的价值就不大了——即使将两块芯片集成在一起,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片来说,这部分成本是可以节省的,但节省的幅度有限。
我们看到,目前所谓的舱驾融合系统,其内部仍然是分开运行的。它们无法做到瞬间切换任务。将两块芯片集成到一块芯片上,可能节省的是封装成本,但对高端智驾而言,这种融合的意义并不大。如果能够将这些芯片集成到同一块电路板上,实现小型化集成方案,这是可行的,不一定非要集成到一块芯片上,也可以是多块芯片协同工作。
问:自研芯片需要哪些前提条件,例如销量、营收和研发投入?鉴于目前自动驾驶迭代速度很快,芯片要持续迭代需要具备哪些条件?
谢炎: 芯片的初期投入相当可观,可能每年需要数亿元人民币。
首要条件是达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年有数十亿至上百亿元的资金,才足以支持芯片的研发投入。其次,所研发的芯片必须能够显著提升产品的核心竞争力。
许多人认为芯片需要庞大的出货量才能摊薄成本。实际上,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如理想L7/L8/L9配备的2颗马赫M100,总面积约为800平方毫米。而一款高端手机的芯片面积约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8台手机。
如此计算,几十万辆车所需的晶圆面积非常庞大,足以有效摊薄成本。所以,成本不能仅以芯片数量来衡量。
问:动态数据流编译器的难点何在?花了多长时间才攻克?
谢炎: 在芯片流片之前,甚至在设计阶段,我们就已经开始了编译器的工作,并且在流片前,已经能够成功运行许多模型。
数据流是一种截然不同的架构,它需要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作不再依赖于中央管理员。传统的冯·诺依曼架构调度方式在这种规模下变得不可行,这本质上是一个超大规模并行调度问题。