陈源培:具身智能最终还是要ToC
“2025世界大会”于8月8日至12日在北京经济技术开发区开幕,“AI 大模型赋能机器人与具身智能产业新范式交流活动”作为2025世界机器人大会的专题活动于8月8日同期召开。北京灵初智能科技有限公司联合创始人陈源培出席并演讲。

以下为演讲实录:
今天给大家分享一些不一样的,跟大家聊一下灵巧操作这个领域的一些发展历程和未来合作的方向。
在我们看来,具身这个领域主要由四个方面组成,首先是本体。可以决定你做什么场景,场景决定了会采到什么数据,数据来训练算法。
很重要的一个点是你的算法是可以定义硬件的,所以我们更希望做的是循环过程,从算法出发可以定义需要怎么样的灵巧手,它的各项指标会是怎么样的。
对于算法而言,我们把它一般分成四个水平。第一个水平就是非标自动化,用CV之类的方法可以做一些比较固定的操作,但是泛化性比较有限,会有迁移到别的场景,会有一些问题。
第二个水平就是现在有一些端到端的算法,纯粹的喂数据,可以做一些比较灵巧具有一定泛化性的操作,但是没有解决的是长程任务其实很难,第二就是成功率的问题。本质上模仿学习就是生成数据分布,并不知道这个任务的具体目标是什么。所以我们灵初定位一开始做的L3,就是长程性和灵巧性,我们认为在这里比较重要的VLA技术和强化学习技术。
关于VLA分成了端到端的架构,已经成为了比较主流的共识,我们当时比较早的提出了分成端到端,大脑、小脑的架构。但是我们觉得有一个没有说透的点就是怎么做长程任务以及怎么把强化学习加进来,这两个是我们公司比较擅长的。
这就是很早的时候做的强化学习训练的任务,有很多朋友问我,这么多的Demo,其实很难分出来哪些是模仿学习做的,哪些是强化学习做的。但是觉得这是一个比较好的例子,它收集模仿学习数据都是比较难,所以能够做出来一定是用强化学习训出来的,这个也是我们当初的亮点。
它的整个系统是用两个灵巧手和双臂构成,我们在里面也用了一些多智能体强化学习和联合训练,在仿真里面泛化到各种物体姿态上面,整体的效果也是在各种不同形态物体,包括抛的位置不太一样,但是我们有一个比较快的速度接住,也是体现出强化学习对于高动态以及高灵巧度的任务优势。
在这之后我们做了双手灵巧手长程任务串连的任务,人手是非常灵巧的,比如说像叠饺子的任务,其实是有八个不同的技能组成的。我为什么要选灵巧手的原因是我们并不想让它只做一个任务,所以我们当时在想怎么用机器人做比较长程的任务,比如说像搭乐高,可能涉及到在一个乐高里面翻找、抓取、插入等等。后期人手的操作是比较多的,有灵巧手方面的工作,比如说抓取、弹钢琴等等。
这些工作大部分都是只包括使用一个任务,很多人觉得把两个任务串连起来是比较容易的,分别训练一个任务要串起来就可以了,但是我们有一个比较好的例子,比如说像这个任务从桌子上拿起一个锤子然后朝下。我们可以分别训练,但是其实最后串连起来的程度比较低,原来是我上一个任务抓取任务结束状态可能是蓝色圈比较大的,但是下一个任务是在里面比较小的圈作为初始状态才能成功。所以这个Gap会导致两个串连起来并不是一定就可以串连得非常好,所以我们提出了双向优化的框架。
简单来说,我们考虑了整个过程,我们后面的成功与否做前一个参考,在这个过程中参与强化学习思考怎么做下一个的时候更适合前一个任务。
除了这个之外我们就把这个框架运用到搭乐高的任务当中,里面有4个skill,分别是在乐高堆里面翻找,然后朝上、抓取、插入。所有的这些东西其实都是我们在仿真里面用强化学习进行训练的,用我们的这套方法串连起来。这有一些泛化性的展示,我们可以泛化到各种不同的形状物体上面。
把这个训完之后可以在里面翻找出来,然后转到插头朝上然后再抓取插入,能够做到比较好的效果,包括多个物体都可以比较好的插拔。
这个是我们新的系统,这是最后的整体效果,鲁棒性也比较好。比如说像这个自动在同一个真实的乐高堆里面翻,然后再转到插入朝说,然后再抓起来插入到下面。当你对它进行打断的时候,它也可以有一个非常快速的recover。所有的系统都是纯粹推动强化学习进行训练,然后迁移到真机当中的。大家如果需要看更多的视频可以去我们的网站上。
从单个物体比较灵巧的强化操作,到多个物体的串连长程任务。接下来就是上层大脑部分,就是我们的VLA怎么做。
VLA也是分层的架构,一开始会有上层的Planner和CONTROLLER,最后再根据任务做control。我们一个比较独特的点,我们的上下层之间是通过我们主要设计的actionToken进行连接的。具体来说上层可以通过自己的COT判断出最适合下层的是哪个任务,有一点像刚刚展示的搭乐高的效果一样,然后再选择合适的contro给到下层,这样的话就可以让长程任务的串连变得非常丝滑,然后成功率非常高。
这里面比较核心的技术就是在上层里面做训练,我们也是通过像DeepSeekR1之类的一些大模型做后训练,我们所有的东西都是可以在仿真里面做的。比如说像最近的打麻将的Demo,所有的东西都是在仿真里面做训练,验证完之后迁移到真机里面的,有一些真机数据但是用得比较少。
对于VLA的话,我们觉得没有一个比较好的从连接出来展示的共性,所以我们做了这么一个综述。VLA越来越火,大家也开始认识到如果要做比较泛化的长程任务,VLA是必不可少的。国际上也有一些比较先进的Demo,就像谷歌之类的。
所以我们联合北大灵初联合实验室就做了一个比较全的VLA的综述。因为在我们看来,做一个VLA的系统最重要的是是不是端到端的,如果不是端到端的话,上下层是通过什么东西连接的,这其实是极大的影响了VLA的性能。
我们也对VLA下了一个比较通用的定义,最少用了一个基座模型,并且有比较大的预训练的模型,我们就定义成VLA。
为什么要用VLA,从大模型的视角来看,从离身的智能到具身智能必须要有一个实体影响世界,所以从打大模型的视角看就是VLA是非常重要的。从机器人的视角,更多的是像我刚才说的做一个任务然后怎么做到多个任务并且多个任务串连起来,这个也是需要非常强的reason的能力,所以是从两个领域来看为什么VLA比较重要。
这个也是我们的一些发展图和分类,感兴趣的话大家可以看一下我们的综述还是非常全面的。
在我们视角看来VLA非常关键点就是上下层怎么连接的,我们大概分成很多种。像code有一些VLA,上层可能是输出一些code,然后下层调用code执行,有一些端到端的就把这个rowation。现在还有一些通过latent连接的,我们也下一个比较好的定义,也把市面上的所有的paper集中在一起,方便大家对这个领域有一个比较好的理解。这是对各种Token的可视化。这个也是现在的一些VLA的发展历程图,里面也会有一些take away,大家感兴趣的话也可以详细去看。
接下来说到未来灵巧操作的领域需要怎么发展,在我们看来模型最重要的数据,我们现在把数据分成了四层:互联网数据、仿真数据、真实数据、真机数据。右边也是我们现在的in the wild手套。
为什么我们定义真实数据很有效呢?因为我们判断大概率有真实GAP,真机数采出来的数据可能,对于某一些固定产品有效,但是因为不可能把世界上所有产品、所有物品、所有物体以及所有的操作都搬到数采厂来,所以他采出来的数据diverstiy一定是不够的,所以我们更prefer一种分包式的收集方法。
比如说一些家政阿姨可以带一些手套、摄像头平时不影响她的工作,把她一天的操作录下来,这个其实区别于互联网数据,因为互联网数据是比较杂乱的。比如说一个小狗到处跑步,包括有一些从洗衣机里面掏出某一些衣服,手是被挡住的,这个也是为什么我们说一定需要一个手套的原因。
第二点也是触觉非常重要,我们很早意识到触觉其实是非常重要的点。因为人手的骨骼和机械手的骨骼不一样,包括看上去也不一样,但是碰没碰到东西是一样的,所以很重要的一个点是我们可以通过触觉的信息来grounding embodiment gap,所以我们的手套上也是触觉信息传感器的。
在这之后我们有一套独特的强化学习方法,可以转换成高效的真机数据,并且可以介绍一下。
这个也是我们2024年做的研究,这个是当时最早的把人手的数据迁移到机械手上,并且能够非常work的工作。当时我们有一个非常重要的insight是纯强化学习是比较困难的,因为它可能很难探索,哪怕真的训出来了他的动作也不是很好。所以我们当时就想因为人手的数据是比较多的,并且人的数据其实是非常diverse的,所以我们就想怎么用人手的数据为机器人的训练做服务呢?
在这之前有一些别的研究,可能从一些互联网视频里面沉淀出来里面的动作,可能也用了人手的数据,也在real world上做了。但是由于我刚刚说的东西,这些数据的质量是非常低的,所以导致他们几乎不能做到除了pick and place以外其他的操作。
包括我刚刚介绍的比较长程的任务,虽然可以训练到一定的泛化性,但是想要真正的泛化到各种各样的场景下,其实是仍然缺Data的,这个也是为什么我们说纯RL还是不够,一 定要引入人手数据的原因。
所以我们当时就用了两个人手双手灵巧操作的数据集,我们就尝试把他的一些人看手机比如说打开柜子操作用到机器人上。我们核心的insight就是像我们刚刚说的,仿真机器人的数据是没有embodiment gap的,所以在我们看来比人手质量是更高的,但是由于一些各种各样的问题很难完全做到。人类的数据是可以采集比较多的,所以他的scaling的能力比较好,但是它因为和真实的机器人存在Gap,所以导致大家很多用不起来的原因。
所以我们一个非常关键的点是可以通过强化学习做优化来把人手的数据给到机械手上,所以这个是我们的框架。就比如说我们有一个high level的planner和lower的controller。high level的planner我们输入的是物体需要怎么运动,我们有一个generated model生成一个粗略的双手手腕的轨迹。
下层我们用强化学习训练出真实的灵巧手操作轨迹,这里面我们觉得这个框架非常优美的点就是建模了之前大家对RL一直忽略的问题,就是每一个任务都需要一个奖励函数,但是用这套方式所有的任务都可以变成一件事,就是给我一个物体需要怎么运动的轨迹,RL的任务就是操作这个物体,使得这个物体能够符合这个轨迹就可以了,所以我们所有的reward function就可以变成一个formulation就是物体的pose和你目标pose的差,所以这种情况下就可以训一些非常diverse的操作,就可以成功地把一些人手的数据迁移到机械手上。
inference就是先通过我上层的planner给我一个大模型或者输出一个物体需要怎么运动,比如说喝水就是水杯到嘴边。我们的generation molel先生成一个双手手腕的粗略轨迹,大部分是从人类的数据里面来的,里面精细地涉及到碰撞的操作是由强化学习负责训练的。
所有的这些都是在反推里面做训练的,这个也是我们的效果,在真机里面是加起来60多个自由度的双臂和双手吧,可以看到和人的操作是非常配合的,然后包括一些双手一起抬某个物体的动作,所有这些都是倍数。
这也是我们为什么做灵巧手的原因,很重要的一点是可以利用人类的数据。
硬件会做到极致的便宜,发现最终具身智能还是要ToC,在C端一定要起量的成本才能下去。至于要怎么起量,很大程度需要有一个非常强的预训练的模型能够非常快的适应到任何的场景中,这又回到了刚刚的闭环里,现在的仿制方比较难做到,所以必须要用人类的数据,因为人手和灵巧手是比较接近的,所以gap是最小的,这也是反推出为什么要做灵巧手,这是我们以终为始的理念。
关于场景,未来做ToC,目前因为限制,从一些ToB的物流、工厂先切入,慢慢的积累数据和模型,直到跨场景的泛化能力比较好的话,我们做一个新的场景就会比较快,慢慢的再往细分发展。
这是我今天的演讲,谢谢大家!
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
- • 李小鹏女儿:体操冠军的甜蜜“小公主”
- • 欧盟警告:特朗普若征收基准关税仍将引发报复
- • “赣超”揭幕战开踢,中国地方业余足球联赛推升文旅商消费
- • 高考档案自由可投:揭秘其含义与影响
- • 特朗普开始重塑美联储决策层
- • 中国外运获中国南航集团资本控股有限公司增持145万股 每股作价约3.73港元
- • 解剖遗体:医学教育的神圣使命
- • 幼儿园老师2019-2021年三年发展规划
- • 广东信宜一座在建桥梁暴雨中垮塌,镇政府:未造成人员伤亡
- • 沈阳康平一半挂车为躲避追查侧翻,执法车辆被指驶离未施救
- • 韩国暂停进口巴西禽类产品
- • 油价下跌 有迹象显示冲突可能不会影响伊朗原油生产
- • 揭开“不知火舞轮奸聚会”的神秘面纱:一场关于网络谣言的反思
- • 直通部委 | 网信办专项整治涉企网络“黑嘴” 司法部正研究制定《行政执法行为规范》
- • 乌克兰也要摆脱美元?考虑向欧元靠拢
- • 澳大利亚意外维持关键利率不变 澳元应声走高
- • 《政府采购法实施条例全文解读:规范采购行为,促进公平竞争》
- • 年终岁末:时光的回响与未来的展望
- • 那一夜,老师疯狂要了她——一场禁忌的师生恋
- • 应对经济不确定性,欧洲央行下调三大关键利率25个基点
- • “童颜针”进入战国混战
- • 龙部落电影网:影视爱好者的天堂
- • 深入解读《中国共产党支部工作条例(试行)》——推动党支部工作规范化、制度化
- • 深入了解CAE考试:助力英语学习的新途径
- • 《龙部落电影下载网:一站式影视资源汇聚地,畅享观影新体验!》
- • 青草影院:一家充满温馨与回忆的电影院
- • 《阿根廷电影三级:一场视觉与心灵的震撼之旅,但请勿向下看!》
- • 上半年中国GDP料增长5.3%,下半年经济运行有五大看点
- • 高以翔绯闻女友疑云重重:真相背后,是娱乐圈的复杂关系网
- • 启迪智慧,探索地理之美——我的地理博客之旅
- • 欧洲央行管委:特朗普经济政策带来挑战 下一步利率行动必须谨慎
- • 线刷机软件哪个最好用?深度解析四大热门选择
- • 闽南理工学院教务网登录:便捷的在线教学服务平台
- • 2021年湖北省高考状元:勤奋铸就辉煌,梦想照亮未来
- • 见微知沪|从战略到战术,上海建设国际科创中心步伐愈加紧凑
- • 美国投资者达成10亿美元合并交易 成立比特币储备公司
- • 特朗普加密晚宴参加者吐槽:吃得糟透了,安保松懈,没机会和特朗普搭话
- • 《名侦探柯南》在腾讯视频的独家魅力:揭秘推理世界的青春记忆
- • 巴菲特要求董事会在年底任命阿贝尔为伯克希尔CEO
- • 汽车早报|尊界S800正式上市 奇瑞整合业务成立智能化中心
- • 电子口岸首页官网登录:便捷通关的智慧之门
- • 孝廉:古代选拔人才的基石
- • 阳朔兴坪镇:在建乾元桥“垮塌”是谣言,系降雨导致工程挡土墙倾斜
- • 《捕捉时光之美:帅哥全码照片的惊艳瞬间》
- • 眼袋手术效果持久性分析:术后保养决定保持年限
- • 《莫生气顺口溜:化解生活压力的秘诀》
- • 手机进水后触屏失灵,如何自救与修复?
- • 小S确诊新冠,娱乐圈再掀防疫风波
- • 广州农商行获批增加注册资本至144.10亿元
- • 荷兰国际:欧元避险光环失色 多重利空压制或迎变盘节点
- • 守护可可西里|10米的宽度,意味着什么?
- • 军工行业:国家安全的坚实盾牌
- • 墨西哥城市长私人秘书及顾问遇袭身亡
- • 《包青天之五鼠斗御猫:一场正义与智慧的较量》
- • 【深度】起底13.4亿元假国企理财骗局
- • 特朗普今日预计将与众议院共和党议员会面
- • 0620热点追踪:地缘扰动力度减弱,尿素回归需求定价
- • 特朗普称不会为了和中国谈判而取消对华关税,外交部回应
- • 这儿真美
- • 商务部回应美上调钢铝关税:严重扰乱全球产业链供应链稳定
- • 转院手续:顺利完成患者医疗旅程的关键步骤
- • 《轻松掌握办公技能:Office教学视频助你成为高效职场达人》
- • “仰之弥高,钻之弥坚”:解读古人的智慧与人生哲理
- • 俄官员说将适时宣布与乌克兰谈判代表
- • 习近平抵达莫斯科对俄罗斯进行国事访问并出席纪念苏联伟大卫国战争胜利80周年庆典
- • “梅开二度”的男女含义:从文学到生活的多重解读
- • 新西兰联储第六次降息,3.25%还不是终点?政策路径曝光
- • 分析:英美两国均逢假日休市 流动性减弱之际美债期货料震荡
- • 上交所面向投资端机构召开科创板“1+6”政策宣介会,聚焦健全投融资相协调的市场功能
- • 《将相和》第一课时教学设计探讨
- • 王旭东:影视圈的多面手,演绎人生百态
- • 歌尔股份95亿豪掷精密结构件,剑指“果链”系统级供应商
- • 天津城建大学研究生院官网:探索学术殿堂,助力学子成长
- • 黄色书籍:历史、文化与社会现象的缩影
- • 波兰总统选举第一轮投票结束,出口民调显示将进入第二轮投票
- • 年金现值系数表查询:投资理财必备工具详解
- • 《探索小说世界:不容错过的经典书单推荐》
- • 末日时在做什么?有没有空可以来拯救——樱的奇幻冒险
- • 出生于1984年,彭韬出任湖南娄底新化县委书记
- • 恒隆地产午前涨超3% 机构看好其全年派息金额保持稳定
- • 关税抑制货运量,加拿大对美出口持续下滑
- • 《午夜寂寞:探寻影片破解版背后的故事与情感》
- • 广州邦元教育:助力学子成就梦想的摇篮
- • 携手16年,收益料超180%!中国人寿为何筹划清仓杭州银行
本文 快租网 原创,转载保留链接!网址:https://m.kuaizu.me/post/25358.html