压缩版:
讲的不只是单独模型,而是一整套面向物理世界智能的 AI 框架。

MindData是统一的 MindVLA 多模态数据引擎,用来持续采集、清洗、自动标注大规模的驾驶数据和行为数据,为模型训练提供数据。
MindVLA-o1是原生多模态的VLA模型,能够理解环境,进行推理,生成驾驶行为。
MindSim是可控的多模态世界模型,可以生成各种复杂的驾驶场景,扩展数据能力,同时能够支持大规模的闭环训练。
RL Infra 通过奖励模型和策略学习,让系统能够在仿真和真实环境中持续地自我迭代、自我进化。
整套系统结构非常像动物的大脑。视觉信息首先进入了视觉皮层,在前额叶进行了推理和规划,再通过运动皮层生成具体的动作,最后通过多巴胺系统进行强化学习、高效反馈,通过整个神经系统完成了最终的行为闭环。
理想在尝试回答一个问题:如何为机器构建一个可以在真实世界中运行的数字大脑?
理想认为这是下一个 AI 的发展方向,让通用 AI 真正进入物理世界。
用同一套基础模型、同一套技术范式、同一套数据系统去训练不同形态的物理智能体。
业界VLA方案三个关键挑战
1.3D 空间、语言思考和行为之间存在对齐效率不够理想
2.长尾场景(需要合成数据和强化学习)
3.高计算成本与内存开销
MindVLA-o1
1.原生多模态的 MoE Transformer 架构
设计之初就统一将视觉、语言、行动进行联合训练,而不是先训练,后组合。
2.原生3D视觉 tokenizer。
3D ViT encoder对真实世界的三维结构进行直接建模。不是简单地将 2D 图像和 3D 信息进行拼接,融合了空间结构、时间的上下文信息,并将大规模的自监督预训练进行特征提取。不仅能够描述当前场景,还能够为后面的决策模型提供高质量的 3D 世界表征。
激光雷达提供准确三维几何信息,视觉提供了丰富语义信息。在同一个表示空间中同时学习几何结构和语义信息。
使用了下一帧预测作为自监督的信号,同时也学习了深度信息、语义结构与物体运动等。
3.多模态的推理能力
语言模型在系统中承担语义理解、常识知识、交互能力。系统 2进行显式推理
4.隐式世界模型。
通过Predictive Latent World Model不仅仅能理解当前环境,还在隐空间中模拟未来发生的可能情况。这个决策非常关键,理想称之为多模态思考。
让模型在隐空间中模拟未来。
直接生成未来真实图像计算成本会非常高。理想选择在latent space中进行预测。把当前的视觉输入编码成一组 latent tokens,作为当前场景的一个紧凑的表征。
世界模型基于这些 token 预测未来的 latent 状态。
训练分为三个阶段:
i.预训练 latent word token,通过大量的视频数据构建未来画面的隐空间表征,让这个 token 能够表示关键的画面和场景;
ii.在 MindVLA-o1 中继续持续训练世界模型的推演,构建隐空间的未来推理能力;
iii.是将世界模型多模态的推理能力以及驾驶行为进行联合训练和对齐。这样在做驾驶决策时,模型不仅能够理解当前的场景,做出逻辑判断,还可以在隐空间提前想象未来画面,具象化驾驶决策。
引入了专门负责行动的 Action Expert。从3D 场景的特征、导航目标、驾驶指令以及前面提到的多模态的推理思考,专注于生成高精度的驾驶轨迹。内核是经验丰富的驾驶专家,专门负责把复杂的认知转化成具体的行动。
为了时延,没采用自回归,采用了 Parallel Decoding,所有轨迹点同时并行生成,尤其提升长时距的轨迹预测效率。
用Discrete Diffusion 的优化方案,通过 N 步的迭代对轨迹进行 refine。类似逐步去噪。
轨迹生成的机制:1.MoE 保证了生成的专业性 2.Parallel 保证了生成的速度3.Diffusion 保证了生成的轨迹精度。
5.软硬件协同设计和强化学习闭环。
协同设计探索的是给定的计算预算下,模型的层数、隐藏的维度、MoE 的激活比例应该如何组合才能达到性能的最优。
在端侧计算资源受限的情况下,更宽且更浅的模型结构往往比传统的深层模型更加有效。
将模型架构探索的时间从数月缩短到了几天。
World Simulator能力决定了强化学习的上限。
前馈 3DGS 场景重建的方式,瞬时生成大规模高保真的驾驶场景。泛化能力也支持大规模并行训练。
视频版:
图文版:
大家好,我是来自理想汽车的詹锟,现在负责理想汽车的基座模型团队。很高兴今天能在 GTC 2026 跟大家做这个分享。

我今天想讲的主题是我们下一代的 MindVLA,也就是 MindVLA-o1。去年我们分享了 MindVLA 之后,受到了很多关注。
今年我们想继续前进一步,和大家继续分享我们对下一代统一模态下 VLA 架构的最新思考。在这个方向我们把它称之为 MindVLA-o1。我们认为它会是自动驾驶下一代统一模态架构下的一个重要范式。

大家先看一段视频:“理想同学,带我去星巴克。”“我准备好了,确认周围没有障碍物吗?”(确认)
感谢,成功到达星巴克。好,谢谢大家。
这是理想汽车在中国已经落地的 VLA 自动驾驶系统。在这个场景里,车辆可以在园区环境中完成无人点到点的自动驾驶任务。而我们只需要通过简单的语音对话,就可以像指挥一个机器人一样引导车辆完成行动。
系统会对指令进行理解推理,并最终转换成驾驶行为,从而自主地完成驾驶操作。同时我们还能够理解更加丰富的语义和交互信息。需要特别说明的是,这个并不是为了演示而专门制作的 demo,这些能力已经是理想汽车在中国量产交付的软件能力的一部分了。

好,我们接下来看看理想自动驾驶技术架构的演进过程。从整体来看,我们把 2024 年量产的端到端自动驾驶系统作为自动驾驶技术路线的一个重要分水岭。在 2023 年之前,行业主流的自动驾驶系统基本都是基于规则的系统架构。
在这一阶段也包括两类方案:一类是 MapLight 轻图方案,另一类是 MapLess 无图方案。轻图方案实现了快速的自动驾驶可用区域的扩展。
从轻图到无图,先验信息完全地去除,感知能力实现了大一统,形成了两段式的 AI 架构,但中间依然加入了很多人类的先验策略。很多自动驾驶公司的城市 NOA 量产系统都是基于这样的架构基础上不断迭代和泛化。
而 2024 年开始,理想汽车在中国率先量产了 端到端加 VLM 的自动驾驶双系统架构。在这一架构中,我们是用高性能的一段式端到端模型来完成驾驶决策,同时结合 VLM 的语义理解,让系统能够更好地理解复杂场景和语义信息。而这一步是自动驾驶系统第一次真正具备了跨场景、跨任务的统一理解能力。
到了 2025 年,我们进一步将端到端模型与 VLM 进行了深度融合,形成了 MindVLA 自动驾驶系统。在这个 MindVLA 系统中,语义理解、语言交互、逻辑推理以及驾驶决策被统一整合到了一个新的模型框架中。在训练方法上,我们也从传统的模仿学习逐步引入了强化学习,让模型在仿真环境中持续训练,能够不断地自我优化和泛化提升。
刚才我们介绍了自动驾驶技术路线的整体演进。接下来我们再更具体地看一下从“端到端加 VLM”到 MindVLA 的架构变化。
在 2024 年量产的系统中,我们采用了“端到端加 VLM”双系统架构。在这个架构中,端到端模型负责了快速的驾驶决策,VLM 模型负责更高层次的语义理解和推理,两者通过接口进行协作。
我们通常把这种模式理解为“快思考”和“慢思考”的组合系统。但是这种双系统架构存在着一些问题:空间理解、语言理解和行为决策仍然在不同的模型中进行交互和对齐。因此从 2025 年开始,我们进一步将这些能力统一到了同一个模型框架中,这就是 VLA 自动驾驶模型。

在VLA 的架构下,视觉信息首先被编码成了一个 3D 空间的 token。语言理解由大模型进行推理,最终由统一的 action policy 生成驾驶轨迹。也就是说空间理解、语言理解和行为决策被统一到了同一个模型的不同模块中。
从系统架构的角度来看,这意味着自动驾驶系统引入了语言思考的部分,演化成了 VLA 的基础模型。而这统一的基础模型,正是后面具身智能的重要体系。

当我们进一步观察当前业界 VLA 方案时,我们发现了它仍然存在三个非常关键的挑战。
第一个挑战:3D 空间、语言思考和行为之间存在对齐效率不够理想的问题。在自动驾驶系统中,模型需要同时完成三件事情:理解 3D 空间、进行语义层面的思考和推理、输出具体的驾驶行为轨迹。
如何让这三个过程在同一个隐空间中高效对齐,其实是非常困难的一个事情。如果对齐得不够好,就会出现两类问题:第一,语义理解和行为出现了偏差,模型能够理解场景,但最后生成的轨迹并不符合预期;第二,决策延迟,视觉、语言、行动之间的传递链路过长,导致反应速度下降。
举个简单的例子,当车辆前方出现了一个行驶较慢的车时,系统不仅需要理解这个场景,还要快速推理:要立即变道还是持续跟随?而且变道的时候速度应该如何控制?
如果空间理解、语言推理和行为决策对齐效率不够高,最后生成的轨迹可能就并不是最优的。因此我们需要提升 3D 空间理解能力,让语义和行为之间对齐精度和整体推理效率进一步提升。
第二个挑战:长尾场景的问题。在自动驾驶中,很多关键问题都来自极少发生的长尾场景,仅仅依靠真实数据的规模扩展很难覆盖这些场景。我们发现必须结合合成数据,还有强化学习。
在架构设计之初,我们就必须考虑好强化学习的范式特点,通过仿真环境进行大规模的训练,才能让系统真正具备泛化能力和鲁棒性。
第三个挑战:计算效率和系统成本。VLA 模型往往包含大规模的语言能力,这会带来非常高的计算和内存开销。
在车端系统中,如何在有限的计算资源下运行 VLA,这是非常现实的问题。我们认为未来的方向必须是软硬协同的架构设计。
通过联合优化模型架构、推理系统以及硬件能力,才能让 VLA 真正在车端规模化地落地。

为了解决刚刚提到的这些问题,我们提出了下一代统一架构 MindVLA-o1。MindVLA-o1 是一个统一范式的 VLA 架构模型。它围绕着几个核心的设计原则来构建:
第一,它具备原生多模态的 MoE Transformer 架构。MindVLA-o1 是一个原生多模态的 Transformer。
所谓原生多模态指的是模型设计之初我们就统一将视觉、语言、行动三种模态进行训练,而不是像传统的模型一样分别进行不同模态的训练,在后期进行组合。这种设计可以让模态在同一个表示空间中共同训练和对齐,从而获得更高的效率和更强的泛化能力。
第二,原生 3D 的视觉 tokenizer。第二个设计的关键是 3D 视觉的空间编码能力。我们引入了 3D ViT encoder,用于对真实世界的三维结构进行直接建模。
与传统方法不同,它并不是简单地将 2D 图像和 3D 信息进行拼接,而是在编码阶段直接构建 3D 的空间表示。这使得模型能够更加自然地理解真实的物理世界的空间结构。
第三,多模态的推理能力。除了视觉之外,我们依然保留了语言能力。语言模型在系统中承担了几个关键的角色:语义理解、常识知识、交互能力。同时我们在模型中引入了“系统 2”的显式推理能力,使模型在复杂的场景中进行更深层次的决策分析。
第四,隐式世界模型。这里有一个重要的组件叫 Predictive Latent World Model。通过这个模块,模型可以对未来的环境状态进行预测,也就是模型不仅仅能理解当前环境,还能在隐空间中模拟未来发生的可能情况。这个能力对于自动驾驶的决策非常关键,我们称之为“多模态思考”。
第五,软硬件协同设计和强化学习的闭环能力。在架构设计之初,我们就进行了软硬件协同的设计,这使得模型在车端计算资源下高效运行的同时,整个系统采用了统一的 MoE 架构,天然适合闭环强化学习的训练。通过强化学习,模型可以在训练中不断优化策略,持续提升泛化能力。

接下来我们介绍一下 MindVLA-o1 的 3D 视觉编码器。在自动驾驶中一个核心的问题是系统必须真正地理解三维物理世界,而不仅仅是 2D 图像。因此我们设计了一个自监督的 3D ViT encoder。
在训练过程中我们同时利用视觉和 LiDAR 的数据,这两种模态天然具备空间的对齐关系。LiDAR 提供了准确的三维几何信息,视觉提供了丰富的语义信息。通过自监督训练,模型可以在同一个表示空间中同时学习几何结构和语义信息。
为了进一步提升对环境的理解,我们在训练中引入了前馈 3DGS 表示。在这个框架中我们将场景分为了两个部分:静态环境用稳定的 3DGS 进行建模,动态环境单独建模其运动状态。这样模型不仅能够理解当前场景,还能预测未来的状态变化。
在这个训练过程中,我们使用了下一帧预测作为自监督的信号,同时也学习了深度信息、语义结构与物体运动等等。
最终我们得到了左侧的 3D ViT 的表示,这个表示融合了空间结构、时间的上下文信息,并将大规模的自监督预训练进行特征提取。因此它不仅能够描述当前场景,还能够为后面的决策模型提供高质量的 3D 世界表征。相关工作我们也在 CVPR、ICLR、ICRA 等等顶会论文上进行发表。

前面我们介绍了系统是如何解决“看”的问题,接下来我们来看系统是如何“思考”。在很多复杂的驾驶场景中,自动驾驶不仅需要理解当前环境,还需要预测未来可能发生的事情。
人类在做决策时其实也是这样。当我们看到一个场景时,大脑不仅会理解当前的画面,还会在脑海中想象未来可能发生的情况。比如下面这个例子,当我们看到右侧有一辆车准备并线时,系统需要进行推理:这个车是否会切入当前的车道?如果它真的并线了,我们应该如何避让?是减速,是刹车还是向左变道?
而为了做出更好的决策,系统必须能够预判未来几秒的场景变化。为了让模型具备这种能力,我们引入了预测式的隐式世界模型,它的核心思想非常简单:让模型在隐空间中模拟未来。
如果直接生成未来真实的图像,计算成本会非常高。因此我们选择在 latent space 中进行预测。首先我们会把当前的视觉输入编码成一组 latent tokens,作为当前场景的一个紧凑的表征。
然后 world model 会基于这些 token 预测未来的 latent 状态。通过这种方式,模型可以在隐空间中高效地模拟未来场景的演化过程。
在训练上我们也会分为三个阶段:
第一步是预训练 latent word token,通过大量的视频数据构建未来画面的隐空间表征,让这个 token 能够表示关键的画面和场景;
第二步,在 MindVLA-o1 中继续持续训练世界模型的推演,构建隐空间的未来推理能力;
第三步,是将世界模型多模态的推理能力以及驾驶行为进行联合训练和对齐。这样在做驾驶决策时,模型不仅能够理解当前的场景,做出逻辑判断,还可以在隐空间提前想象未来画面,具象化驾驶决策。
我们把这种能力称之为“多模态思考” (Generative Multimodal Thinking)。自动驾驶不仅需要看见世界,还需要预测未来。相关的研究成果也已经在 CVPR 和 AAAI上进行了发表。

接下来我们看系统是如何生成驾驶轨迹的。为了解决这一问题,我们设计了 Unified Action Generation 模块。这个模块的核心部分我们使用了 MindVLA MoE 架构。
不同于传统的通用语言模型的 MoE,我们在其中引入了专门负责行动的 Action Expert。这些动作专家会从多个输入中提取关键信息,比如 3D 场景的特征、导航目标、驾驶指令以及前面提到的多模态的推理思考,将其整合,专注于生成高精度的驾驶轨迹。你可以把它理解为在这些系统中有一组经验丰富的驾驶专家,专门负责把复杂的认知转化成具体的行动。
为了满足自动驾驶的实时性要求,我们没有采用传统的自回归的生成方式。传统模型需要一个一个点地生成轨迹,而我们采用了 Parallel Decoding,也就是说所有轨迹点可以同时并行生成,这大幅提升了轨迹的生成效率,尤其是在长时距的轨迹预测时。
那么并行生成轨迹如何保证质量呢?我们还引入了 Discrete Diffusion 的优化方案,模型会通过 N 步的迭代不断对轨迹进行 refine。这有点类似于逐步去噪的过程。最终我们得到的轨迹在空间上连续,在时间上稳定,同时也能满足车辆动力学约束。
因此这一套轨迹生成的机制可以总结为三个点:MoE 保证了生成的专业性,Parallel 保证了生成的速度,Diffusion 保证了生成的轨迹精度。相关的多篇论文也已经在顶会上进行了发表。

最后我们来看看系统是如何进行持续进化。在传统的自动驾驶系统中,模型主要依赖于模仿学习,从人类的驾驶数据中持续学习。但这样的过程有一个明显的限制:模型只能在已经存在的数据分布中探索,而鲁棒性大大降低。
为了突破这一点,我们构建了一个闭环强化学习的框架。在这个框架中,模型不仅可以从真实数据中学习,还可以在 world simulator 中不断探索和优化。也就是说,系统可以在模拟环境下不断尝试新的策略,根据反馈进行策略更新。
这里面有几个关键的组成部分:首先是要确定探索的数据集,我们通常采用人类接管的困难数据集作为探索;其次,我们要具备一个很好的反馈模型,确认给模型正确的反馈;最后,我们需要构建一个良好的世界模型引擎来探索不同的场景。而在整个强化学习框架中,world simulator 的能力实际上直接决定了强化学习的上限。
为了构建一个高效率、高保真的世界模拟器,我们做了几个关键的技术升级。首先,我们将传统逐步优化式的重建升级成了 前馈 3DGS 场景重建的方式,这使得系统能够瞬时生成大规模高保真的驾驶场景。
同时 前馈 3DGS 的场景重建也具备更加强大的泛化能力,从而支持大规模的并行训练。
与此同时,我们还将 前馈 3DGS 场景重建与生成式模型进行结合,使得模拟出来的环境不仅可以更加真实有效,还可以进行生成式的扩展、编辑和全新场景的 transfer。
当然,要实现如此大规模的模拟与训练,强大的工程基础设施至关重要。在这一部分中,我们与英伟达团队进行了深度的合作。
借助 NVIDIA Cosmos 和 NVIDIA NuRec 的能力,我们构建了统一的 3DGS 渲染引擎和分布式的训练框架。
这里有两个非常关键的能力提升:我们的渲染速度较之前提升了接近两倍,我们的整体训练成本降低了约 75%。只有在这种效率提升的情况下,我们才能真正进行大规模的 3DGS 分布式训练。
这样才能实现真正的低成本、高效率的强化学习闭环。

我们是如何将这样复杂的 MindVLA 模型真正部署在车端平台上。在端侧部署大模型时,我们面临了一个非常现实的挑战:高精度的模型通常跑不动,能跑动的模型往往精度又不够。
传统的解决方案是通过大量的实验不断试错,反复地调整模型结构。这样的过程通常需要数月的时间,效率非常低。为了解决这个问题,我们提出了一种面向端侧大模型的软硬件协同 Scaling Law 方案。
在这个框架中,我们不仅建模了模型结构与损失之间的关系,还结合了 Roofline 模型来刻画硬件的计算能力、内存带宽的限制。通过这种方式,我们可以在模型性能与硬件约束之间建立一个统一的分析框架。
在实际实验中,我们评估了接近 2000 种不同的模型架构配置,并在英伟达的 Orin 和 Thor 平台上进行了验证。最终我们成功找到了模型精度与推理延迟之间的帕累托前沿。
这条曲线告诉我们在给定的计算预算下,模型的层数、隐藏的维度、MoE 的激活比例应该如何组合才能达到性能的最优。
这里有一个有意思的观察:在端侧计算资源受限的情况下,更宽且更浅的模型结构往往比传统的深层模型更加有效。
通过这一套软硬件协同的设计方案,我们将模型架构探索的时间从数月缩短到了几天。这大大提升了端侧 MindVLA 的模型设计效率和部署速度。

我想用这一页总结一下我们整个系统的全景图。我们今天讲的其实并不只是一个单独的模型,而是一整套面向物理世界智能的 AI 框架。
在左上角是 MindData,这是一个统一的 MindVLA 多模态数据引擎,用来持续采集、清洗、自动标注大规模的驾驶数据和行为数据,为模型训练提供高质量的数据基础。
在数据之上我们训练了 MindVLA-o1,这是一个统一原生多模态的 VLA 模型,它能够理解环境,进行推理,生成驾驶行为。为了突破真实数据的规模限制,我们还构建了 MindSim。
这是一个可控的多模态世界模型,可以生成各种复杂的驾驶场景,扩展数据能力,同时能够支持大规模的闭环训练。在最右侧是我们的 RL Infra 通过奖励模型和策略学习,让系统能够在仿真和真实环境中持续地自我迭代、自我进化。
而这四个部分 MindData、MindVLA-o1、MindSim 和 RL Infra 组合在一起的时候,它们构成的就是我们面向物理世界智能的基础模型全景图。
通过这样一套系统,AI 不仅能够看见这个世界,而且能够理解这个世界,在世界中行动并持续从经验中学习。
当我们把这样的系统放在一起的时候,其实有一个很有意思的观察:整套系统结构从视觉感知到世界理解和推理,到行动决策,再到强化学习持续优化,再到最终的系统效率和硬件协同,这一整套结构非常像动物的大脑。在生物学中,视觉信息首先进入了视觉皮层,然后在前额叶进行了推理和规划,再通过运动皮层生成具体的动作,最后通过多巴胺系统进行强化学习、高效反馈,通过整个神经系统完成了最终的行为闭环。
某种意义上说,我们今天构建的这套系统其实在尝试回答一个问题:如何为机器构建一个可以在真实世界中运行的数字大脑,而自动驾驶只是这一过程的一个起点。我们相信这正是下一个 AI 的发展方向,让通用 AI 真正进入物理世界。

用三个视频做一个收尾。我们认为整个行业正在进入一个新的阶段:具身 AI 的时代。过去自动驾驶更多地被看作为一个专门的任务,让车在道路上安全地行驶。
但今天,当我把视觉、语言、思考、想象还有行动统一在同一个模型中后,这个系统其实已经不仅仅是一个自动驾驶模型了。它正在逐渐演化成一个通用的物理世界基础模型。

左边这个视频是一个自动驾驶的例子。当我们给出一个自然语言指令:“帮我把车停到前面那辆橘色的车旁”,系统立即可以理解这个语义环境,并根据推理和思考生成相应的驾驶轨迹去完成这个任务。

中间这个视频是一个机器人操作的演示。基于同样的基础模型架构 MindVLA,我们让机械臂完成了一个简单的任务:把桌上的瓶子拿起来,往杯子里倒养乐多。这里其实验证了一件事情:统一的 MindVLA 基础模型范式不仅可以控制车辆,还可以控制机器人和机械臂。

右边的这个视频展示的是我们的生成式数据能力。通过世界模型和生成模型,我们不仅可以合成自动驾驶数据,我们还可以生成各种具身智能的训练数据。比如当我们给定真实世界的前视图,系统可以自动生成对应的俯视视角操作数据,用来训练机器人策略。
这意味着我们可以使用同一套基础模型、同一套技术范式、同一套数据系统去训练不同形态的物理智能体。
所以从某种意义上说,自动驾驶只是物理 AI 的一个起点。未来类似的基础模型将驱动车辆、机器人、机械臂以及各种物理系统,而这正是我们所说的新的范式:具身 AI。相信在未来 Physical Agents 将会越来越走进人们的生活。
以上就是我今天想要分享的内容,感谢大家的时间,谢谢。
加微信,进群深度交流理想实际经营情况与长期基本面。不是技术群,不是官方群,不是车友群。
