AI助理
AI助理
发布于 2026-03-16 / 2 阅读
0

贾鹏gtc2026讲灵巧手的强化学习框架完整图文版压缩版视频版

至简动力半年不到时间完成5轮融资,累计融资额达20亿人民币。至简动力CEO为前理想智能驾驶技术研发负责人贾鹏,董事长为前理想CTO王凯,COO为前理想智驾量产负责人王佳佳。

据晚点了解,维他动力的赵哲伦,至简动力的贾鹏、王佳佳等已离职创业的人士,依然和李想保持密切交流,也会在理想的 AI 周会上做行业分享。[1]

视频版:

压缩版:

具身智能核心难题: 泛化能力差+用户要求100%成功率。

至简动力方法论:更高上限的一体化模型/数据采集方式/强化学习框架/端侧推理和训练(很多工厂因为保密不允许接入网络)。

基座模型技术路线不收敛,存在路线之争,三种流派

1.双系统VLA

用一个较大的视觉语言模型进行质量的理解和任务的拆解,再通过一个较小的 VA 的端到端,或者是一个 VLA 模型做快速的执行。

好处可以处理长程任务,但因为是两个不同模型,因运行帧率不同,在工程实践中两个模型协同和联合训练非常困难。

2.端到端的VLA

把指令理解、任务拆解以及动作的生成合为一个整体,端到端地去完成任务。

容易发生视觉能力和语言CoT能力的灾难性以往。行业逐渐形成共识,视觉是具身智能最重要的模态,视觉能力下降对灵巧操作影响很大。

3.世界模型

不以VLM作为基础,基于视频生成模型或者是高斯生成模型,实现对世界的理解、预测以及动作的生成。

相较VLA有两个范式变化,以语言为中心转向以视觉为中心,以理解为主转向以生成为主。世界模型泛化能力很强,但往往伴随幻觉,故在灵巧操作上性能没有超过VLA,此外对算力要求很高。

至简动力模型设计理念为Simple Scalable,追求结构简单,更容易scaling。

基座模型需要四种能力:

1.需要对语言指令、任务逻辑、3D 空间及其时序变化,以及本体自身的状态进行理解和建模。

模型的输入需要天生多模态并进行统一的建模和编码,而不是简单的跨模态对齐。

2.与世界闭环交互

动作会改变世界,世界的变化也会影响动作的选择。需要同时对模型和动作进行联合的生成和预测,输出也是多模态

3.实时性得非常高

4.具备对自身状态做出评估的能力,并根据评估的状态调整动作的生成。

至简动力认为具身基座模型的发展趋势是一定是Unification 即大一统。

大一统是四个方面的一体化

1.多模态理解的一体化

2.多模态生成的一体化

3.快慢思考的一体化 模型自适应选择深度思考或快速执行

  1. Policy 和 Critic 的一体化

模型不仅仅能够执行动作,还能评估当前的状态和动作的优劣,并根据评估的结果来调整策略。

至简动力认为通用具身智能一定是可以自学习、自进化的系统。

使用MoT (Mixture-of-Transformers)实现用单一 Transformer 实现多个模态的理解和生成。

核心思想是不同的模态通过共享 Attention 实现跨模态的信息交互。输入被统一为 token 序列,不同模态保留独立的 QKV 和 FFN 子网络。

相比于从零训练一个原生多模态模型,MoT可以复用单模态基础模型,成本非常低,扩展新模态也非常灵活方便。

具身智能需要的模态是远远超过其他 AI 应用,扩展新模态的灵活性非常重要。

实践中发现,扩散模型在 3D 动作的生成效果上明显优于自回归模型。

MoT 因为不同子网络可以采用不同的训练目标,天然地就兼容自回归和扩散两种生成方式。

至简动力的具身基座模型为LaST-0,初始化至理解生成合一的基座模型,引入Latent CoT,结合VLA和世界模型的优点,在紧凑的Latent空间对物理世界进行建模和预测。

LaST-0 会同时自回归地预测二维的图像、3D 点云以及本体的感知状态,实现多模态的 CoT,多模态的隐式 CoT 也被扩展到未来的关键帧上,实现了时空上的预测和生成。

每个模态只需要一个 token,随着 token 增加,整体的成功率并没有显著地提升。

时序预测得越长,模型的效果越好。

实际部署中,不同难度的任务所需要的预测时长各不相同。通过大规模的预训练,模型在执行不同任务时自适应地调整预测的时长,以最佳的推理速度完成任务。

LaST-0比显式 CoT 的方法实现了约 14 倍的加速。

随着层数的加深,视觉特征逐渐减弱甚至消失,这是导致 VLA 模型泛化能力差的一个根本原因。

通过 MoT 将视觉的这种特征注入到更深层的 Transformer 层。

目前行业获取数据有四种种方法:

1.合成数据。

可以快速地实现数据的规模化。但是在柔性物体、可变形物体、可切割物体和流体的模拟上存在不足,对触觉、力觉的模拟上也有所欠缺,无法满足落地的需求。

2.真机数据采集。

效果好,但采集效率低下

3.半真机采集。

效率非常高,但是硬件往往需要末端执行器和真机保持一致,大大限制使用范围。

4.Ego-centric 的数据,即人类第一视角的视频数据。

数据质量并不高,在需要力觉、触觉等这样精细操作的场景下,仅仅依靠视频也是不够的。

至简动力选择的是便携式手套进行数据采集。既能保证数据采集的效果,也能保持数据的质量,同时还很方便地可以扩展到更多的模态,比如说触觉、力觉等。

SFT 对数据质量的要求是远远高于预训练,便携式手套所采集的数据可以满足 SFT 的要求。

工厂工人非常愿意配合,既不影响工作效率,还能赚取数据采集的额外收入。

为解决强化学习效率低、上限低的问题,至简动力采取了虚实结合的方法,提出了 Twin-RL 框架。

通过 3DGS把场景重建成虚拟的数字孪生。训练的并不是具体的操作,而是放大模型的探索空间,通过并行训练大幅提升探索的效率。

锁定模型更容易出错的位置,来指导真机的强化学习,提升 Human-in-the-loop 的效率。

当前的强化学习大多数都是针对 action 部分的强化,但是 action 往往只有成功和失败两种状态,监督十分稀疏,导致训练效率极其低下。

至简动力的基座模型具备了稠密的时空 Latent Feature,可以针对过程中的 Latent 进行更加稠密和更加高效的强化学习训练。既Double-L 强化学习框架,在 Latent Feature 生成和 Action 生成两个层面进行双重的强化。

使用英伟达 FP16、FP8 混合精度的训练和 Video-training 的训练框架,对显存的需求也大幅减少。在至简动力的产品上无需编程,仅通过简单的拖动和语音指导,普通工人就能教会机器人完成新的任务。

图文版:

图片0

大家好,欢迎来到 GTC,我是至简动力的 CEO 贾鹏。今天非常荣幸参加 GTC,在接下来的 40 分钟时间里,我将为大家介绍至简动力在具身智能的思考和一些实战经验。

图片1

具身智能是最近两年比较火的领域,大家经常展望未来,每一个机器人都是一个自主的智能体,它能够替代人类完成各种各样的重要任务。人们对具身机器人也寄予了很高的期望,结局是美好的。

但是在实际的落地过程中,我们发现了一个巨大的现实鸿沟。目前具身智能的整体的泛化能力比较差,尤其在灵巧操作任务上,几乎没有任何泛化能力可言。

即使只是把被操作的物体挪动一个位置,或者改变一下光照条件,模型都可能会失败。有一句话:真实世界远比小说更复杂。

我们发现真实场景的复杂程度远远超出想象。以目前模型的泛化能力,在大多数场景中都难以落地。因此大家为了做 demo,往往会针对性地针对单一任务大量地采集数据,让模型过拟合一个单一场景来提高任务的成功率,甚至加上大量的规则作为兜底。

可是即便如此,在很多精细操作任务的成功率仍然不是很高。而在工厂等应用场景中,只有达到百分之百的成功率,才能真正形成生产力,对于用户产生价值。

同时,具身的基础模型普遍规模比较大,机器人的硬件结构也比较复杂。这导致整套系统的执行效率并不高,很难满足用户的需求。

尤其是工厂这种对节拍要求非常高的场景,这是整个行业面临的问题,也是具身智能发展到现在已经有几年的时间了,却仍然没有大规模落地的真正原因。

用户的期望其实是非常明确的,他们希望在自己的任务上,具身机器人能够实现百分之百的成功率。

然而具身智能的真正价值在于其通用性,于是这就产生了一个根本矛盾:通用能力的不足与用户的高要求之间存在着巨大的鸿沟。

图片2

至简动力是一家专注于具身智能的初创公司。我们的英文名字是 Simplicity,理念是大道至简。我们希望用简单的方法来解决复杂的问题。

面对这个根本矛盾,我们一直也在思考,是否可以通过一个简单而统一的框架,将一个通用的基座模型在各种下游任务上都能实现百分之百的成功率,同时还能保持其泛化性,形成真正的生产力。

围绕这个目标,通过大量的研究 and 实践,我们形成了一套行之有效的方法论。这个方法论主要包括以下四个方面:

第一,我们需要构建高上限的基座模型,一定要相信模型的力量。所以在模型的结构上,至简动力追求大一统的模型,这个大一统包括了四个层面的统一,它的结构具备通用性和更高的上限,稍后会详细地阐述。

第二,我们需要更高效的数据采集方式。构建高上限的基座模型还有一个前置条件,那就是需要海量的泛化数据。我们认为一个好的预训练模型是所有工作的基础。

但是与大语言模型一样,再强大的基座模型,它在某些特殊的垂直领域中能力也可能是不足的,甚至有可能是缺失的。所以在垂直领域落地时,我们往往需要高质量的任务数据进行 SFT,完成模型与具体任务之间的对齐。如何高效地获取海量高质量的预训练数据 and SFT 数据,是我们需要解决的第二个问题。

第三,具体到单一任务上,需要确保模型能够达到 100% 的成功率,而且这个过程要尽可能地快。对于用户来说,时间就是金钱,我们适配的时间往往就意味着用户停产停线的时间。

第四,我们需要实现端侧的实时的推理和训练。很多工厂对节拍和延迟是有非常高的要求的,所以系统必须具备实时的推理能力。

同时有很多工厂因为保密的原因是不允许接入网络的。因此具身模型必须部署在端侧,不仅要端侧实现实时的推理,也要在端侧实现高效的训练,这极具挑战。

我们团队已经积累了大量的工程经验,在全球第一个把大模型部署在端侧,并实现了大规模的量产。

在接下来的时间里,我会详细阐述每一方面的具体做法。

图片3

好,首先讨论一下我们的基座模型是如何设计的。目前模型的技术路线并不收敛,行业还存在路线之争。

主要分为以下三个流派:

第一个是双系统的 VLA。利用一个较大的视觉语言模型进行质量的理解和任务的拆解,再通过一个较小的 VA 的端到端,或者是一个 VLA 模型做快速的执行。

第二个是端到端的 VLA 模型。它把指令理解、任务拆解以及动作的生成合为一个整体,端到端地去完成任务。

第三个是最近比较热门的世界模型。世界模型不再以传统的 VLM 作为基础,而是基于视频生成模型或者是高斯生成模型,实现对世界的理解、预测以及动作的生成。

这三条路线都有各自的优势和不足。先看双系统,双系统的好处是可以处理长程任务,因为它上面有一个大的 VLM 去做任务的拆解和调度。

但是双系统的本质是由两个不同的模型构成的,而且两个模型的运行帧率不同。因此在实际工程中,这两个模型的协同与联合训练都非常困难。事实上我们团队是全球最早提出并量产双系统的团队,因此踩过非常多的坑。

然后是端到端的 VLA。目前行业普遍基于预训练的 VLM 去做具身的 continue training。在这个过程中,大家都发现灾难性遗忘不可避免。

这种遗忘主要体现在两个方面:第一是视觉能力的遗忘,第二是语言 CoT 能力的遗忘。行业已经逐渐形成共识,视觉是具身智能最重要的模态,一旦视觉能力下降,对灵巧操作的影响非常大。因此很多 VLA 模型训练出来之后,泛化能力几乎为零。

第三个是世界模型。相对于双系统和端到端 VLA,它是一个巨大的范式变化。这个变化体现在两方面:第一,从以语言为中心转向以视觉为中心;第二,从以理解为主转向以生成为主。

目前观察下来,世界模型的泛化能力很强,但是这个泛化能力往往伴随着视觉中的幻觉。所以目前世界模型在灵巧操作上的性能并没有超过 VLA。同时它有一个劣势,就是对算力的要求非常高。

那么至简动力的基座模型是如何设计的呢?我们的理念是 Simple Scalable,所以模型的设计要追求结构简单。随着数据的增加,这样简单、没有太多人为设计的结构的模型,它的上限反而会更高,具备更好的 Scaling 效率。

在展示我们的模型架构之前,首先会问一个问题:具身的基座模型到底需要什么样的能力?我们认为需要四种能力:

第一,它需要对语言指令、任务逻辑、3D 空间及其时序变化,以及本体自身的状态进行理解和建模。这就意味着这个模型的输入天生就是多模态。为了达到最佳的效果,多模态之间必须进行统一的建模和编码,而不是简单地进行跨模态的对齐,这样上限才会更高。

第二,这个模型在理解指令和任务的基础之上,需要与世界进行交互。而且这个交互一定是闭环的交互。

也就是说动作会改变世界,同时世界的变化也会影响动作的选择。这就意味着我们需要同时对模型和动作进行联合的生成和预测。所以这个模型的输出也是多模态的,也就是我们常说的多模态的生成。

第三,这个模型的实时性一定非常高,在大多数工况下都需要做出快速的响应。所以模型的结构必须非常适合端侧的推理。但仅仅是这种条件反射式的响应还是不够的,它需要具备在关键时刻深入思考的能力。

可以参考人的思考过程,这个思考不仅仅是语言的 CoT,而是多模态的 CoT。换言之,这个模型需要具备多模态的思考,并且根据工况自适应地调整思考的速度。

第四,这个模型还需要具备对自身状态做出评估的能力,并且根据评估的状态调整动作的生成。综上所述,这样的模型实际上综合了双系统、端到端 VLA 及世界模型的所有优点。

所以我们认为具身基座模型的发展趋势是 Unification 即大一统。未来通用的具身基座模型一定是一个大一统的模型。

这个所谓的大一统是四个方面的一体化:

第一,多模态理解的一体化,即原生多模态。我们已经在大语言模型中看到了类似的趋势,对多种模态进行 Early Fusion 可以实现模态之间的相互促进,大幅提升多模态的理解能力。

第二个是多模态的生成的一体化。在理解世界的同时也要预测未来世界的变化以及与动作之间的相互作用关系。

第三个是快慢思考的一体化。模型要学会根据任务自适应地选择深度思考或者快速执行。

第四个是 Policy 和 Critic 的一体化。模型不仅仅能够执行动作,还能评估当前的状态和动作的优劣,并且根据评估的结果来调整策略。我们认为通用的具身智能一定是可以自学习、自进化的系统。Policy 与 Critic 的一体化为自进化提供了一种可能性。

在我们心目中的大一统的模型是指使用单一的 Transformer 就可以实现多个模态的理解和生成。

但是理想是丰满的,现实是骨感的。对于 Gemini 这样的团队,他们有充足的资源去做 from scratch 的预训练。但是对于咱们创业团队来说,从零训练一个原生多模态的模型是非常困难的。目前我们也没有看到类似的开源工作可以让我们去做接力。

图片4

那我们应该如何去破局呢?我们认为 MoT (Mixture-of-Transformers) 是目前一种非常好的选择。MoT 是一种在已有模型之上实现原生多模态能力的架构。

它的核心思想是不同的模态通过共享的 Attention 实现跨模态的信息交互。它的输入被统一为 token 序列,不同模态保留独立的 QKV 和 FFN 子网络。

但是通过共享 Attention 进行联合的建模。相比于从零训练一个原生多模态模型,MoT 的优势在于它可以复用已有的单模态基础模型,成本非常低。

此外它有一个巨大的优势,就是扩展新模态非常地灵活方便。

我们知道具身智能需要的模态是远远超过其他 AI 应用的,而且对于灵巧操作会持续引入新的模态。所以扩展新模态的灵活性非常重要,MoT 就具备了这样的优点。

同时在我们的实践中发现,具身模型需要在 3D 空间中生成动作,扩散模型在 3D 动作的生成效果上明显优于自回归模型。

因此我们需要在同一模型中同时支持自回归和扩散两种生成方式。MoT 因为它的不同子网络可以采用不同的训练目标,所以它天然地就兼容了自回归和扩散两种生成方式。

图片5

基于这样的思考,我们团队提出了 LaST-0,我们的具身基座模型。它初始化自一个理解生成合一的基座模型,并引入了高效的 Latent CoT 范式,将 VLA 和世界模型的优点结合在一起,在紧凑的 Latent 空间中对物理世界进行建模和预测。

精细的灵巧操作仅依赖语言是远远不够的。所以在 Latent 空间中,LaST-0 会同时自回归地预测二维的图像、3D 点云以及本体的感知状态,实现多模态的 CoT,使模型获得了优秀的空间推理能力。

同时多模态的隐式 CoT 也被扩展到未来的关键帧上,实现了时空上的预测和生成。

对比没有多模态时空 CoT 能力的模型,LaST-0 更精确地捕捉到了机器人与环境之间的交互关系,大幅提高了机器人的闭环操作能力和长程任务的成功率。

团队进一步通过 MoT 实现了快慢系统的统一架构。经过大规模的预训练,快慢系统在统一的模型架构中自主切换,有效地实现了深度思考与快速响应之间的无缝交互,从而实现了更高的推理效率,保证了高帧率低延迟的要求。

图片6

我们对模型的设计进行了更深度的思考。第一,理解和生成所需要的模态到底有哪些?

我们发现无论是 2D 的视觉语义、3D 的空间结构以及机器人本身的状态,都需要被考虑进来。随着模态的丰富,精细操作的成功率逐渐提升。

大家可能会担心这么多的模态需要去做建模,是不是需要大量的 token,从而导致模型的推理效率低下?我们发现其实每个模态只需要一个 token 就足够了。随着 token 的增加,整体的成功率并没有显著地提升,而是接近饱和。

同时我们也发现时序预测得越长,模型的效果越好。但在实际部署中,不同难度的任务所需要的预测时长各不相同。

通过大规模的预训练,模型具备了在执行不同任务时自适应地调整预测的时长,以最佳的推理速度完成任务。这其实也实现了另一种形式的快慢系统。

图片7

团队系统地在仿真任务和真实场景上评估了 LaST-0 的效果。结果显示在仿真和真实场景中,LaST-0 均实现了 SOTA,大幅超越了之前的基座模型。同时比显式 CoT 的方法实现了约 14 倍的加速。

在长程任务中,LaST-0 具备很好的容错能力,即使中间被故意打断,模型也会从错误中快速恢复。

除了桌面操作之外,LaST-0 在移动操作中也表现出了精确的导航能力和双臂协作能力,证明了隐式 CoT 可以从桌面操作泛化到更大的动作空间。对于具备灵巧手和高自由度的人形机器人,LaST-0 也能很好地处理复杂的关节操作,表明其推理和生成能力不受限于机器人的形态。

目前 LaST-0 已经成为北美顶尖实验室对比的 baseline model,相关论文大家会在四月份陆续看到。

前面也提到了基于 VLM 模型去做具身的后训练会导致灾难性遗忘的问题。其中对模型的泛化能力和精细操作影响最大的是视觉的遗忘。

我们分析了大量的开源 VLA 模型,我们发现随着层数的加深,视觉特征逐渐减弱甚至消失,这是导致 VLA 模型泛化能力差的一个根本原因。

图片8

我们提到 MoT 是个非常灵活的架构,通过实验我们发现可以通过 MoT 将视觉的这种特征注入到更深层的 Transformer 层。

通过这样一个可插拔的简易操作,就可以实现模型的大幅提升。相关的改进也会出现在 LaST-0 的后续版本中,LaST 系列模型也会持续更新,欢迎大家的关注和评论。

图片9

有了 LaST-0 这样高上限的模型,我们该如何去评价它的能力呢?我们认为除了 zero-shot 的泛化能力,对于下游任务更重要的是能否通过少量的数据就可以实现任务的学习。我们做了大量的这样的实验,LaST-0 模型仅通过数十条数据就能实现煎鸡蛋、做爆米花,甚至使用筷子这样复杂的操作。

这里我们展示 LaST-0 模型,通过简单的 SFT 就可以实现乐高积木的搭建。3D 乐高积木搭建是一个非常长程的任务,它不仅需要很强的空间时序的理解能力,也需要很强的精细操作能力。具体是个什么样的任务呢?这里有一段演示视频。

在人搭建积木的过程中,我们故意遮挡摄像头,不让模型看到人是怎么拼的。如果摄像头能够看到人拼积木的过程,模型其实是可以作弊的。在人拼完之后,比如这是一个立体的、斜向的金字塔,模型会根据积木的最终状态和空白时的初始状态,推理出整个搭建过程,并驱动机械臂复刻出相同的形状。

我们观察到模型有它自己的思路,它的搭建过程可能跟人完全不同。模型的推理过程是个多模态的推理,它会预测未来的世界长成什么样子,同时通过语言的自由体描述这个搭建逻辑和过程,并最终通过 action 的生成实现积木的搭建。

我们尝试过很多复杂的任务,甚至有投资人在现场去搭建去测试这个模型,我们的模型完成了非常高的成功率。这个工作目前已经被 CVPR 2026 接收。

图片10

在这个演讲开篇的时候,我就提到,基座模型的预训练除了需要更高上限的模型结构外,数据是另一大挑战。与大语言模型和自动驾驶等 AI 应用不同,具身智能领域天然就缺乏数据的来源。

目前行业获取数据有以下几种方法:

第一种是合成数据。合成数据可以快速地实现数据的规模化。但是在柔性物体、可变形物体、可切割物体和流体的模拟上存在不足,对触觉、力觉的模拟上也有所欠缺,无法满足落地的需求。

第二种是真机的数据采集。真机采集和下游任务的域差异(domain gap)是最小的。但是我们都知道真机的采集效率是真的低下。

第三种是使用 UMI 这种半真机采集。效率非常高,但是 UMI 的硬件往往需要末端执行器和真机保持一致,这就大大地限制了它的使用范围。

第四种是 Ego-centric 的数据,即人类第一视角的视频数据。来源非常广泛,最近又有很多类似的工作。但是我们实践下来,Ego-centric 的数据质量并不高,在需要力觉、触觉等这样精细操作的场景下,仅仅依靠视频也是不够的。

至简动力选择的是便携式手套进行数据采集。它既能保证数据采集的效果,也能保持数据的质量,同时还很方便地可以扩展到更多的模态,比如说触觉、力觉等等,是我们认为目前数据规模化最佳的方案。

目前我们的手套数据不仅仅可以适配到不同形态的灵巧手上,同时也能适配到二指和三指的夹爪上。它解决了预训练对泛化数据海量的需求。

我们实践下来,对模型的泛化性有着很大的提升。

图片11

在解决了基座模型的预训练之后,我们的模型还无法直接应用到下游的任务上。和大语言模型一样,预训练的基座模型在具体垂直领域上可能只能做到六七十分,我们还需要垂直领域的数据进行 SFT。

在工厂这样的落地场景中部署真机进行数据采集,往往是不可行的。真机部署不仅影响工厂的生产,工人一般也不愿意配合,因为遥控(teleoperation)会大幅降低他们的工作效率。但是使用这种便携式的手套采集,他们是非常愿意配合的,既不影响工作效率,还能赚取数据采集的额外收入。

大家知道 SFT 对数据质量的要求是远远高于预训练的。那这种便携式手套所采集的数据能否满足 SFT 的要求?通过实践我们发现是可以的。我们在 SFT 中使用了大量的这样的人手的数据,你会发现可以大幅提升模型在下游任务中的泛化性和任务成功率。

图片12

具身智能与大语言模型、自动驾驶等其他 AI 应用还有一个不同。在大语言模型和自动驾驶应用中,模型做到八九十分就已经可以形成生产力,实现产品化。但是具身智能在落地场景中,如果做不到百分之百的成功率,它是没办法变成生产力的。

如何让一个通用模型在单一任务上实现百分之百的成功率呢?其实行业目前已经逐步形成了共识,可以通过强化学习去实现。但是目前具身的强化学习有两个问题:

第一个是效率极其低下。具身的强化学习监督信号非常稀疏,往往只有动作完成和未完成两种结果,即 0 和 1。为了增加过程监督信号,大家往往通过 Human-in-the-loop 的方式,通过人为的接管、纠错视角提供稠密的 reward 信号。但随之而来的负面问题就是效率极其低下。

第二个问题是容易过拟合。经过强化学习之后,尤其真机强化学习之后,模型往往失去了泛化能力,过拟合到了单一场景。甚至只是小幅度的挪动了一下目标物体的位置,模型都会失败。

根据我们在大语言模型上的经验,强化学习(尤其是 RLHF)并不会创造新的能力,它只是重新调整了模型输出的概率分布。因此强化学习的能力上限仍然是由基座模型的能力决定的。我们在具身模型的训练中也发现了类似的现象。

举一个例子,我们把桌面操作空间严格地分成了 A 区域和 B 区域。然后只使用 A 区域的数据进行模型的训练。我们会发现在 B 区域模型的得分基本是零分。即使经过强化学习的训练之后,成功率也基本为零。加入 Human-in-the-loop 进行了人工干预之后才勉强有些分数,但是整个过程十分漫长。

图片13

为了解决强化学习效率低、上限低的问题,至简动力采取了虚实结合的方法,提出了 Twin-RL 框架。我们通过 3DGS(3D Gaussian Splatting)把场景重建成虚拟的数字孪生。在这个虚拟环境中训练的并不是具体的操作,而是放大模型的探索空间,并且可以通过并行训练大幅提升探索的效率。另一方面,通过在数字孪生中的探索,我们锁定模型更容易出错的位置,来指导真机的强化学习,提升 Human-in-the-loop 的效率。

同时当前的强化学习大多数都是针对 action 部分的强化,但是 action 往往只有成功和失败两种状态,监督十分稀疏,导致我们的训练效率极其低下。

至简动力的基座模型,如之前的介绍,具备了稠密的时空 Latent Feature,所以我们可以针对过程中的 Latent 进行更加稠密和更加高效的强化学习训练。

基于此,我们提出了 Double-L 强化学习框架,在 Latent Feature 生成和 Action 生成两个层面进行双重的强化,学习效果和效率也进一步提升。这项工作的论文我们会在近期发布,也欢迎大家的关注和评论。

图片14

那这样的强化学习方法能够达到什么样的效果呢?我们发现在大多数下游任务中,我们都可以在两分钟内实现百分之百的成功率。而且这个成功率是具备泛化性的成功率,在任意位置都能达到百分之百。

至此我可以总结一下我们在模型方面的方法论:

第一,我们追求高上限的大一统模型。这个大一统是原生多模态、理解生成合一、Policy 和 Critic 合一、自适应的快慢思考。

第二,我们使用了便携式的手套方案,规模化的获取预训练数据和高质量的 SFT 数据。

第三,在具体的任务中,我们采取 Twin-RL 虚实结合的框架以及 Double-L RL 的方法,在 Latent Feature 层面以及 Action 层面同时进行强化学习。我们可以在极短的时间内实现模型的百分之百的成功率,并且能够保持模型的泛化性。

图片15

但是这样的模型还没有办法真正去工厂打工。我们需要模型能够低延迟、高帧率,满足实际生产中对节拍的要求。

同时用户花了几万甚至几十万去购买我们的机器人,所以我们的机器人不能只干一件事情,他们希望一个普通工人就能教会我们的机器去做新的事情,快速在新的岗位上形成生产力。

我们发现这样的用户需求是非常合理的,而且具备普遍性. 现在很多工厂的产能是不满的,所以都在尝试柔性制造,生产内容会经常发生变化。这就要求我们的机器人能够在端侧进行训练,满足用户多任务的需求。

在英伟达的帮助下,我们在端侧做了大量的优化。不仅实现了高帧率、低延迟的实时推理,同时也在行业第一个实现了端侧的训练。

使用英伟达 FP16、FP8 混合精度的训练和 Video-training 的训练框架,模型的训练效率得到了大大提升,对显存的需求也大幅减少。在我们的产品上无需编程,仅通过简单的拖动和语音指导,普通工人就能教会我们的机器人完成新的任务。这大大提升了我们产品的产品力和性价比。

图片16

好,最后总结一下。具身智能行业正在经历一个重要的阶段,从 demo 走向真实的生产力。至简动力围绕这一目标形成了一套行之有效的方法论:更高上限的一体化模型,更高效的数据采集方式,更高效的强化学习框架,端侧的推理引擎和训练框架。

通过这样一套方法论,我们可以在保证模型泛化性的同时,在最短的时间内实现单一任务的百分之百的成功率。未来我们会持续打磨这套方法论,并且通过数据的飞轮效应持续提升基座模型的通用能力,实现各种场景下的泛化性,最终实现通用具身智能。

[1]独家丨理想调整基座模型业务:詹锟接手,VLA 研发整合

加微信,进群深度交流理想实际经营情况与长期基本面。不是技术群,不是官方群,不是车友群。

图片

原文作者:理想TOP2,文章仅供学习,如有侵权请留言,我会立即删除,谢谢!