陈源培：具身智能最终还是要ToC

11 阅读：22 2025-08-09 15:56:02 评论：0

　　“2025世界大会”于8月8日至12日在北京经济技术开发区开幕，“AI 大模型赋能机器人与具身智能产业新范式交流活动”作为2025世界机器人大会的专题活动于8月8日同期召开。北京灵初智能科技有限公司联合创始人陈源培出席并演讲。

　　以下为演讲实录：

　　今天给大家分享一些不一样的，跟大家聊一下灵巧操作这个领域的一些发展历程和未来合作的方向。

　　在我们看来，具身这个领域主要由四个方面组成，首先是本体。可以决定你做什么场景，场景决定了会采到什么数据，数据来训练算法。

　　很重要的一个点是你的算法是可以定义硬件的，所以我们更希望做的是循环过程，从算法出发可以定义需要怎么样的灵巧手，它的各项指标会是怎么样的。

　　对于算法而言，我们把它一般分成四个水平。第一个水平就是非标自动化，用CV之类的方法可以做一些比较固定的操作，但是泛化性比较有限，会有迁移到别的场景，会有一些问题。

　　第二个水平就是现在有一些端到端的算法，纯粹的喂数据，可以做一些比较灵巧具有一定泛化性的操作，但是没有解决的是长程任务其实很难，第二就是成功率的问题。本质上模仿学习就是生成数据分布，并不知道这个任务的具体目标是什么。所以我们灵初定位一开始做的L3，就是长程性和灵巧性，我们认为在这里比较重要的VLA技术和强化学习技术。

　　关于VLA分成了端到端的架构，已经成为了比较主流的共识，我们当时比较早的提出了分成端到端，大脑、小脑的架构。但是我们觉得有一个没有说透的点就是怎么做长程任务以及怎么把强化学习加进来，这两个是我们公司比较擅长的。

　　这就是很早的时候做的强化学习训练的任务，有很多朋友问我，这么多的Demo，其实很难分出来哪些是模仿学习做的，哪些是强化学习做的。但是觉得这是一个比较好的例子，它收集模仿学习数据都是比较难，所以能够做出来一定是用强化学习训出来的，这个也是我们当初的亮点。

　　它的整个系统是用两个灵巧手和双臂构成，我们在里面也用了一些多智能体强化学习和联合训练，在仿真里面泛化到各种物体姿态上面，整体的效果也是在各种不同形态物体，包括抛的位置不太一样，但是我们有一个比较快的速度接住，也是体现出强化学习对于高动态以及高灵巧度的任务优势。

　　在这之后我们做了双手灵巧手长程任务串连的任务，人手是非常灵巧的，比如说像叠饺子的任务，其实是有八个不同的技能组成的。我为什么要选灵巧手的原因是我们并不想让它只做一个任务，所以我们当时在想怎么用机器人做比较长程的任务，比如说像搭乐高，可能涉及到在一个乐高里面翻找、抓取、插入等等。后期人手的操作是比较多的，有灵巧手方面的工作，比如说抓取、弹钢琴等等。

　　这些工作大部分都是只包括使用一个任务，很多人觉得把两个任务串连起来是比较容易的，分别训练一个任务要串起来就可以了，但是我们有一个比较好的例子，比如说像这个任务从桌子上拿起一个锤子然后朝下。我们可以分别训练，但是其实最后串连起来的程度比较低，原来是我上一个任务抓取任务结束状态可能是蓝色圈比较大的，但是下一个任务是在里面比较小的圈作为初始状态才能成功。所以这个Gap会导致两个串连起来并不是一定就可以串连得非常好，所以我们提出了双向优化的框架。

　　简单来说，我们考虑了整个过程，我们后面的成功与否做前一个参考，在这个过程中参与强化学习思考怎么做下一个的时候更适合前一个任务。

　　除了这个之外我们就把这个框架运用到搭乐高的任务当中，里面有4个skill，分别是在乐高堆里面翻找，然后朝上、抓取、插入。所有的这些东西其实都是我们在仿真里面用强化学习进行训练的，用我们的这套方法串连起来。这有一些泛化性的展示，我们可以泛化到各种不同的形状物体上面。

　　把这个训完之后可以在里面翻找出来，然后转到插头朝上然后再抓取插入，能够做到比较好的效果，包括多个物体都可以比较好的插拔。

　　这个是我们新的系统，这是最后的整体效果，鲁棒性也比较好。比如说像这个自动在同一个真实的乐高堆里面翻，然后再转到插入朝说，然后再抓起来插入到下面。当你对它进行打断的时候，它也可以有一个非常快速的recover。所有的系统都是纯粹推动强化学习进行训练，然后迁移到真机当中的。大家如果需要看更多的视频可以去我们的网站上。

　　从单个物体比较灵巧的强化操作，到多个物体的串连长程任务。接下来就是上层大脑部分，就是我们的VLA怎么做。

　　VLA也是分层的架构，一开始会有上层的Planner和CONTROLLER，最后再根据任务做control。我们一个比较独特的点，我们的上下层之间是通过我们主要设计的actionToken进行连接的。具体来说上层可以通过自己的COT判断出最适合下层的是哪个任务，有一点像刚刚展示的搭乐高的效果一样，然后再选择合适的contro给到下层，这样的话就可以让长程任务的串连变得非常丝滑，然后成功率非常高。

　　这里面比较核心的技术就是在上层里面做训练，我们也是通过像DeepSeekR1之类的一些大模型做后训练，我们所有的东西都是可以在仿真里面做的。比如说像最近的打麻将的Demo，所有的东西都是在仿真里面做训练，验证完之后迁移到真机里面的，有一些真机数据但是用得比较少。

　　对于VLA的话，我们觉得没有一个比较好的从连接出来展示的共性，所以我们做了这么一个综述。VLA越来越火，大家也开始认识到如果要做比较泛化的长程任务，VLA是必不可少的。国际上也有一些比较先进的Demo，就像谷歌之类的。

　　所以我们联合北大灵初联合实验室就做了一个比较全的VLA的综述。因为在我们看来，做一个VLA的系统最重要的是是不是端到端的，如果不是端到端的话，上下层是通过什么东西连接的，这其实是极大的影响了VLA的性能。

　　我们也对VLA下了一个比较通用的定义，最少用了一个基座模型，并且有比较大的预训练的模型，我们就定义成VLA。

　　为什么要用VLA，从大模型的视角来看，从离身的智能到具身智能必须要有一个实体影响世界，所以从打大模型的视角看就是VLA是非常重要的。从机器人的视角，更多的是像我刚才说的做一个任务然后怎么做到多个任务并且多个任务串连起来，这个也是需要非常强的reason的能力，所以是从两个领域来看为什么VLA比较重要。

　　这个也是我们的一些发展图和分类，感兴趣的话大家可以看一下我们的综述还是非常全面的。

　　在我们视角看来VLA非常关键点就是上下层怎么连接的，我们大概分成很多种。像code有一些VLA，上层可能是输出一些code，然后下层调用code执行，有一些端到端的就把这个rowation。现在还有一些通过latent连接的，我们也下一个比较好的定义，也把市面上的所有的paper集中在一起，方便大家对这个领域有一个比较好的理解。这是对各种Token的可视化。这个也是现在的一些VLA的发展历程图，里面也会有一些take away，大家感兴趣的话也可以详细去看。

　　接下来说到未来灵巧操作的领域需要怎么发展，在我们看来模型最重要的数据，我们现在把数据分成了四层：互联网数据、仿真数据、真实数据、真机数据。右边也是我们现在的in the wild手套。

　　为什么我们定义真实数据很有效呢？因为我们判断大概率有真实GAP，真机数采出来的数据可能，对于某一些固定产品有效，但是因为不可能把世界上所有产品、所有物品、所有物体以及所有的操作都搬到数采厂来，所以他采出来的数据diverstiy一定是不够的，所以我们更prefer一种分包式的收集方法。

　　比如说一些家政阿姨可以带一些手套、摄像头平时不影响她的工作，把她一天的操作录下来，这个其实区别于互联网数据，因为互联网数据是比较杂乱的。比如说一个小狗到处跑步，包括有一些从洗衣机里面掏出某一些衣服，手是被挡住的，这个也是为什么我们说一定需要一个手套的原因。

　　第二点也是触觉非常重要，我们很早意识到触觉其实是非常重要的点。因为人手的骨骼和机械手的骨骼不一样，包括看上去也不一样，但是碰没碰到东西是一样的，所以很重要的一个点是我们可以通过触觉的信息来grounding embodiment gap，所以我们的手套上也是触觉信息传感器的。

　　在这之后我们有一套独特的强化学习方法，可以转换成高效的真机数据，并且可以介绍一下。

　　这个也是我们2024年做的研究，这个是当时最早的把人手的数据迁移到机械手上，并且能够非常work的工作。当时我们有一个非常重要的insight是纯强化学习是比较困难的，因为它可能很难探索，哪怕真的训出来了他的动作也不是很好。所以我们当时就想因为人手的数据是比较多的，并且人的数据其实是非常diverse的，所以我们就想怎么用人手的数据为机器人的训练做服务呢？

　　在这之前有一些别的研究，可能从一些互联网视频里面沉淀出来里面的动作，可能也用了人手的数据，也在real world上做了。但是由于我刚刚说的东西，这些数据的质量是非常低的，所以导致他们几乎不能做到除了pick and place以外其他的操作。

　　包括我刚刚介绍的比较长程的任务，虽然可以训练到一定的泛化性，但是想要真正的泛化到各种各样的场景下，其实是仍然缺Data的，这个也是为什么我们说纯RL还是不够，一定要引入人手数据的原因。

　　所以我们当时就用了两个人手双手灵巧操作的数据集，我们就尝试把他的一些人看手机比如说打开柜子操作用到机器人上。我们核心的insight就是像我们刚刚说的，仿真机器人的数据是没有embodiment gap的，所以在我们看来比人手质量是更高的，但是由于一些各种各样的问题很难完全做到。人类的数据是可以采集比较多的，所以他的scaling的能力比较好，但是它因为和真实的机器人存在Gap，所以导致大家很多用不起来的原因。

　　所以我们一个非常关键的点是可以通过强化学习做优化来把人手的数据给到机械手上，所以这个是我们的框架。就比如说我们有一个high level的planner和lower的controller。high level的planner我们输入的是物体需要怎么运动，我们有一个generated model生成一个粗略的双手手腕的轨迹。

　　下层我们用强化学习训练出真实的灵巧手操作轨迹，这里面我们觉得这个框架非常优美的点就是建模了之前大家对RL一直忽略的问题，就是每一个任务都需要一个奖励函数，但是用这套方式所有的任务都可以变成一件事，就是给我一个物体需要怎么运动的轨迹，RL的任务就是操作这个物体，使得这个物体能够符合这个轨迹就可以了，所以我们所有的reward function就可以变成一个formulation就是物体的pose和你目标pose的差，所以这种情况下就可以训一些非常diverse的操作，就可以成功地把一些人手的数据迁移到机械手上。

　　inference就是先通过我上层的planner给我一个大模型或者输出一个物体需要怎么运动，比如说喝水就是水杯到嘴边。我们的generation molel先生成一个双手手腕的粗略轨迹，大部分是从人类的数据里面来的，里面精细地涉及到碰撞的操作是由强化学习负责训练的。

　　所有的这些都是在反推里面做训练的，这个也是我们的效果，在真机里面是加起来60多个自由度的双臂和双手吧，可以看到和人的操作是非常配合的，然后包括一些双手一起抬某个物体的动作，所有这些都是倍数。

　　这也是我们为什么做灵巧手的原因，很重要的一点是可以利用人类的数据。

　　硬件会做到极致的便宜，发现最终具身智能还是要ToC，在C端一定要起量的成本才能下去。至于要怎么起量，很大程度需要有一个非常强的预训练的模型能够非常快的适应到任何的场景中，这又回到了刚刚的闭环里，现在的仿制方比较难做到，所以必须要用人类的数据，因为人手和灵巧手是比较接近的，所以gap是最小的，这也是反推出为什么要做灵巧手，这是我们以终为始的理念。

　　关于场景，未来做ToC，目前因为限制，从一些ToB的物流、工厂先切入，慢慢的积累数据和模型，直到跨场景的泛化能力比较好的话，我们做一个新的场景就会比较快，慢慢的再往细分发展。

　　这是我今天的演讲，谢谢大家！

　　新浪声明：所有会议实录均为现场速记整理，未经演讲者审阅，新浪网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。