被吐槽没技术的理想,要为自己正名
随着特斯拉FSD(完全自动驾驶)进入中国市场的步伐加快,各大车企纷纷跟进,推出自己的端到端大模型方案。
6月,理想汽车董事长兼CEO李想在2024中国汽车重庆论坛上表示,理想汽车将在今年三季度推出无图NOA(自动辅助导航驾驶),最早今年年底最晚明年年初,推出基于理想自研大模型和VLM视觉模型的L3级自动驾驶系统。同时,随着这套技术的演进、算力的增强、模型的加大,无监督的L4级别自动驾驶至少三年内一定可以实现。
7月5日,理想汽车举办了理想 2024 智能驾驶夏季发布会。这次发布会李想并没有出席,而是由三位技术专家介绍了理想智能驾驶的现在和未来。
在发布会上,他们以对话的形式,介绍了最新的端到端+VLM双系统智能驾驶模型,通过世界模型的学习和思考环境,这一系统将加速自动驾驶技术的迭代。
首批推送OTA 6.0版本的,是AD Max用户 | 图片来源:理想汽车
同时,理想推出的OTA 6.0版本智能驾驶升级,将引入无需高清地图的NOA功能,并覆盖理想MEGA和理想L9、L8、L7、L6的AD Max车型,惠及超过24万名用户,实现全国范围内的智能驾驶体验。
目前,多家厂商都在追逐「端到端」,但理想汽车是首个公开技术方案的车企。那么,理想的「端到端」方案到底有何特殊之处呢?
「紧跟」特斯拉
作为自动驾驶行业的标杆企业,特斯拉的技术路线一直备受关注。自2023年5月, 伊隆·马斯克首次公开提到「特斯拉FSD v12是一个端到端AI」,到2024年3月,特斯拉开始大规模推送v12版本,特斯拉的端到端技术不断进步的过程,也见证了中国自动驾驶行业逐渐达成共识的历程。
尽管行业内对端到端的发展趋势已形成普遍共识,但在具体技术路线上的分歧仍然存在。例如,「模块化端到端」采用监督学习的训练方式,而「单模型端到端」可能更倾向于自回归和生成式的训练方法。
理想这次公布的自动驾驶方案,有点类似Momenta的双系统模式。其理论来源是诺贝尔经济学奖得主丹尼尔·卡尼曼的《思考,快与慢》理论,提到了认知心理学里系统 1 与系统 2 的概念。其中,系统 1 是基于人们过去的经验和习惯形成的直觉,能够迅速做出决策。系统 2 则代表着思维推理的能力,面对复杂问题和未知场景,人们需要思考、推理来解决。总之,系统 1 和系统 2 相互协作,构成了人类认知和理解世界以及做出决策的基石。
理想自动驾驶系统 1 的演进路径 | 图片来源:理想
具体到理想汽车的自动驾驶技术架构,主要靠三个部分来实现:系统 1 由端到端模型(E2E)实现,主要用于快速响应常规驾驶问题。这个系统经历了三个阶段:
模块化设计,包含感知、定位、规划、导航、NPN,支持了 100 个城市的 NOA。
无图模式。只有感知和规划两个模型,最大的变化是去掉了NPN,不依赖于先验信息
类似特斯拉的 One Model的端到端模型,只有一个模型,输入的是传感器,输出的是行驶轨迹。
理想智能驾驶系统2的技术架构图 | 图片来源:理想
系统2是视觉语言模型(VLM),具备处理复杂场景的能力。它由Transformer模型组成,将提示词(Prompt)文本进行分词编码,并将摄像头图像和导航地图信息一起传输给模型进行自回归推理。系统2的输出包括环境理解、驾驶决策和驾驶轨迹,然后传递给系统1来控制车辆。
与大多数单帧的VLM模型不同,理想设计了流式视频编码器,能够缓存更长时间的视觉信息。此外,系统还增加了记忆模块(Memory bank),可以缓存多帧历史信息,从而解决长时间序列推理时延的问题。
可以这样理解,系统2就像是一位智能导航和决策专家,它不仅能够看到当前的路况和环境(摄像头图像),还能够根据地图信息和用户的指令(Prompt文本)来进行决策和规划行车路径。
与此同时,理想汽车介绍了端到端方案的测试和验证方法。一般来说,业内主流的做法是通过3D虚拟环境、重建仿真、生成仿真等进行仿真测试。理想则结合了重建仿真和生成仿真两种技术路径。
可以用一个比方来说明:假设你在准备考试,有两种题型需要练习:真题和模拟题。真题是过去考试中实际出现过的问题,模拟题则是根据考试大纲编写的新题目。真题可以让你熟悉考试的风格和类型,而模拟题可以帮助你应对可能出现的新情况。
理想的测试方法类似于这个准备过程。他们先使用3D高斯溅射(3DGS)技术,像是真题一样重建真实场景,然后利用生成模型,像是模拟题一样补充新的视角。这样一来,他们创建的测试环境既真实又多样,可以更全面地评估自动驾驶系统的表现。
此外,他们采用了动静态分离的策略,就像是分开练习不同类型的题目:静态部分是环境重建,动态部分则是对动态物体进行重建和生成新视角。通过这种方法,他们创建了一个360°可编辑的3D物理世界,能够模拟各种不同的驾驶条件,比如天气变化、时间不同、车流量等,来全面测试自动驾驶系统的适应能力。
开城大战继续玩下去
除了自动驾驶新架构,理想汽车还发布OTA 6.0版本的智能驾驶升级,带来无需高清地图支持的NOA功能。这次升级将覆盖理想MEGA以及理想L9、L8、L7、L6的ADMax车型,惠及理想超过24万名用户。
在2023年,中国智能驾驶行业的焦点集中在「城市NOA开城大战」。目前,华为和小鹏已经推出了无需高清地图的高阶驾驶辅助功能,蔚来也推出了全域领航辅助NOP+城区功能。
理想无图NOA的推送节奏 | 图片来源:理想汽车
这次,理想也紧随其后。据了解,理想汽车最新发布的无图NOA(导航辅助驾驶)功能不仅可以在城市和城镇中行驶,还能适应二级道路。相比之前的版本,新版无图NOA在BEV(鸟瞰视图)、感知能力、规控能力以及整体系统能力上都有了全面提升,能够应对更多复杂的行驶环境。
发布会上,理想汽车拆解了无图NOA的四大核心能力,其中最值得关注的是前两个:
哪里都能开。无图NOA无需依赖大量的「先验信息」。理想汽车的智能驾驶系统中有许多「小机器人」在运行,虽然部分「小机器人」可能仍需一些先验信息,但整体能力的提升,使得系统能够更灵活地应对各种路面情况,而无需事先验证。
绕行丝滑。该能力结合了时间和空间的双重规划。在实际驾驶中,常常会遇到车辆或行人阻碍通行。这时,「绕行顺畅」能力就显得尤为重要。其背后的时空联合能力,可以同步规划横纵(前后左右)的空间,并持续预测自车与他车之间的空间交互关系。通过规划出「未来一段时间内」的所有可行驶轨迹,筛选出最优、最高效的行驶路径。
除此之外,理想汽车还对AEB(自动紧急制动)和AES(自动紧急转向)进行了多项优化。在日常生活中的低速场景,特别是在地库停车等复杂环境中,用户可能会遇到柱子、墩子等障碍物。理想汽车的低速AEB能够在这些情况下自动刹停,避免剐蹭,减少用户的烦恼。
在高速行驶时,如果前车突然急刹并避让,而当前的车与前车距离过近,无法及时刹停,理想汽车的AES功能会自动减速并紧急转向避让。这个功能在“消失的前车”场景中尤其重要,可以显著提升行车安全。
目前,端到端自动驾驶已经成为行业的共识。华为、小鹏、元戎启行、商汤绝影、零一汽车等主机厂和智能驾驶技术公司纷纷进入这一领域,并在最近半年陆续披露了上车量产规划。
然而,端到端技术不是一项「一招鲜」的技术,它需要一整套支持系统才能真正发挥作用。以特斯拉为例,虽然其他公司也在使用端到端技术,但效果却不如特斯拉理想。特斯拉的成功不仅是因为采用了端到端,还因为他们在每个细节上都做得非常出色。不过,对在智能驾驶上的布局虽然相对较晚的理想汽车,端到端还是让它有了追赶的机会。