11月21日,腾讯全球数字生态大会城市峰会落地无锡,灵初智能联合创始人陈源培发表主题演讲,分享了具身智能在灵巧操作领域的技术突破与应用前景,并重点介绍了与腾讯云在模型训练、远程遥操作等方面的 合作成果。
陈源培指出,具身智能在灵巧操作领域的发展面临模型、数据与场景三大核心挑战。模型层面,需攻克复杂指令理解与实体运动控制的融合问题;数据层面,存在训练样本规模不足导致训练效率低下的瓶颈;场景层面,则需克服真实环境中的不确定性,以实现技术的稳定部署与规模化应用。
在模型构建方面,灵初智能采用“分层端到端”VLA架构作为核心技术路线。陈源培表示,这一架构对云端算力的性能与稳定性提出了极高要求。在模型训练过程中,腾讯云提供了强大的异构计算资源和全链路优化支持,显著加速了模型迭代进程,为技术从构想走向原型提供了关键保障。
针对数据获取与场景落地难题,双方基于腾讯云的音视频技术,构建了端到端的低时延远程控制系统。“该方案不仅为复杂场景提供可靠的人工干预通道,更重要的是构建了高质量示范数据的采集通路,为模型的持续优化与强化学习奠定坚实基础。”陈源培强调。
展望未来,陈源培表示灵初智能将继续深化与腾讯云的战略合作,共同推进具身智能技术在物流、零售等场景的规模化落地,加速智能机器人技术在产业端的应用进程。
以下为陈源培讲话全文:
各位领导大家好,我是灵初的联创陈源培。今天我给大家带来的分享是《具身智能灵巧操作的发展》。
我会从四个方面来介绍,第一个是具身智能的挑战。在灵初看来具身智能主要由三个方面构成,第一个场景,第二个数据,第三个模型。
我先从场景说起,我们公司是专注于做双臂双手灵巧操作的公司,我们选的是轮式底盘,具身智能最大的价值代替人们劳动,提高生产力,最关键的是双手操作,所以我们选择了一双手,这跟数据强相关。
对于具身来说,大概率还是用人类的数据,现有的几种数据模式,包括数据工厂和仿真数据,都有各自的缺陷,仿真会有一些很难仿真的东西,比如软体、流体,数据工厂虽然可以高质量的采集数据,但并不能采集世界上所有的数据,我们走的是直接采集人类数据,直接采集人手数据,再用到机器人上,这个我后面会详细介绍。
还有就是模型,我们公司是国内最早提出分层端到端的公司,甚至早于国外的公司,这是源于我们团队一开始的背景就是从大模型和强化学习来的,我们认为纯粹的端到端是比较早期的,现在比较务实的方法是分层的做法,也逐渐成为了行业共识。这里面最难的点是什么?主要有两个,第一个是在分层的时候,上层的大脑和小脑要怎么衔接,第二个就是如何通过强化学习,提高它的整体操作成功率和泛化性,这两点我们公司都有自己的思考。
公司当时在仿真里面做灵巧手的训练,这是非常杂乱的乐高堆,然后抓起来再放下来,包括各种各样形状的乐高,包括人工的打断,都可以做的比较好。右边也是从仿真到真机里面,具有六十多个灵巧操作的展示,这些都是我们公司很早的积累,就形成了现在这么一个分层端到端的VLA架构,上层有一个Planner,是大模型微调形成的,主要输入的是图片和语音,通过上层的COT自适应的输出最适合下沉模型的Token,然后给到下层,下层的小脑模型再通过这些输入,来输出机器人具体的关节角度,整个过程中,它会有几段,一开始先用预训练数据来做训练,后面会用真机强化的方式做最后成功率的提升。
刚刚说到了数据,我们在数据的思考,可以看左边这个数据金字塔,从最底层的互联网仿真数据,在冷启动的时候会使用,真机数据是质量最高的,但它的泛化能力有问题,所以我们更多采用中间的真实数据,就是人可以戴着手套去采集。有两个重要的点,第一个是现在硬件发展非常快,现在硬件采集的数据三年后大概率不是这个硬件,所以数据怎么迁移是比较难的问题。第二个是必须有可移动式的数采方案。最右边数据生成方式,我们怎么把人手数据真正在机器人上用起来,所以我们有一套相关的技术栈。
还有数采手套的采集方式,它无需机器人就可以做数采,它的好处有三点,一个是成本,不用机器人在旁边做遥操,只需要手套的成本,是传统遥操的1/10,第二是支持户外的大规模数采,第三是有非常高的自由度。这是模型在物流场景的采集过程,最左边是在人采集数据的基础上加上一套遥操数据,这是我们自研的一套遥操方案,右边就可以通过真机强化学习来做最后的微调,直到最右边真实部署的时候,就可以达到比较高的成功率和节拍,这里展示了物流分拣场景的作业。
我们公司做的所有的动作,都是通过一个VLA模型,结合预训练、后训练、强化学习的技术来做的,这是当时在世界人工智能大会上的现场展示录制,包含了商超打包的产品,有抓、扫码、放置,最后有一个比较灵巧的对塑料袋进行打结。这里面最难的是最后一步扫码,因为它需要识别出码在哪里,在抓取的时候不抓到这个码,以及最后扫的时候要定位的非常准确,必须通过大模型才能做到。这个打结也是一个比较全程的灵巧操作,需要比较精确的抓取,包括视觉和反馈,才能够做的比较好。
这是一些难以操作的,像手机这类物品,需要把它拨到桌边再抓取,然后再递给别人,这一套传统的方法都比较难做,也是通过我们的大脑模型来完成的。这是麻将机器人,可以自主发牌、抓牌、打牌,在展会上有很多观众朋友一起体验了。所有的这些技术都是通过强学习后训练做的,然后我们自己收集数据,再通过大模型的后训练技术,把整个麻将的策略、识别和具身联动,全部训练到了一个模型里面,才能完成这么一件事。整个操作也是非常长程的操作,因为要打完一整局需要很多次的抓、放、抽牌,以及双手之间的交换,包括碰牌和杠牌,这都是不能被预设好的。
然后是行业应用,刚刚说到了模型,我们更希望的不是纯粹上来就收集一个仿真学,那样难度太大,并且太陡峭,像自动驾驶的经验,上来就做L4并不是一个好选择,所以我们更倾向的是在场景中做整个闭环,我们虽然是一个细分场景,但非常有价值,我们把整个模型构建起来之后,再拿这些数据回流回来,最后慢慢扩大这个模型,所以我们一个比较看好的场景就是物流,因为物流的场景碰到的物体会比较多,衣服仓、化妆品仓,物体是比较泛化的,包括零售,现在碰到的物体以后大概率是在家庭中也能碰到的物体,还有很重要的一点是可以出海。这是我们的两个场景,一个是众包,一个是货到人拣选,都是有希望能够做出来的。
商业主要有两方面,第一个是数据,数据这个东西除了国内,国外的需求也是非常多的,据我们了解的一些市场价格,包括国外的大厂也在频繁的收数据,我们认为数据的缺口非常大,但和他们交流下来,他们也不会要纯粹数据中间商的数据,按他们的说法,必须要懂模型,必须要证明这个数据可以训练出来模型,包括我们自己,因为我们自己也做训仿真学所以我们有自己的数据,会有一部分的数据出海。第二个是物流,是我们比较看好也是短期能够完成的场景,在海外也有非常多类似的客户,像GXO、UPS等等,我们也是积极的在做。
然后就是和腾讯云的合作,非常感谢腾讯云跟我们整个模型团队一直长期的支持,对于VLA模型训练来说,第一点最离不开的就是整套云的算力,腾讯云在这个过程中不仅给我们算法团队非常多的支持,而且还跟我们做深入的技术交流,构建出一套对双方都有用的技术积累和沉淀,为之后的具身或者整个智能体都有比较好的积累。
第二个合作空间就是遥操作,对我们公司来说,长期的落地,具身是一个从0到1的东西,最后落地的时候,大概率会像智驾一样,早期的时候会有安全员在后面接管,这时候远程遥操接管方案非常重要,因为腾讯云的音视频流技术非常先进,所以遥操的延时会非常低,我们会跟腾讯云有非常多的合作,希望后面能够继续合作,共同把具身智能这个赛道推向一个新的高度。
谢谢大家。
