今年 3 月,一段两分半钟的视频点击量破百万。没有太多花哨的情节,白色背景前,一个人形机器人遵照人类指令,递给对方苹果,归置好桌上的杯子和餐碟,并解释这样做的原因。
这段 视频来自当红人形机器人初创公司 Figure。 成立不过两年,Figure 估值已达 26 亿美元,其投资人包括微软、英伟达、英特尔、贝佐斯等,被戏称金主覆盖半个硅谷。
视频中,Figure 机器人启动页面,出现醒目的 "powered by OpenAI"。除了自己开发的神经网络技术,Figure 这款产品背后显然有 OpenAI 的生成式 AI 支撑。
AI 让人形机器人拥有新的可能。一个诞生于 1950 年的概念 " 具身智能 "(Embodied Artificial Intelligence)进入人们视野。
在这一概念下,借助大模型,机器人感知、决策与交互提升,具备更强的自主学习能力和环境适应性。机器人赋予大模型现实的物理载体,让曾经的虚拟智能走进现实世界。
技术和现实的交织足以掀起广阔的想象,业界普遍认为具身智能将是一个万亿市场。
最近一系列的行业进展似乎给出了证明:2 月份, FigureAI 完成 6.75 亿美元融资;3 月份,英伟达发布人形机器人通用模型 Project GR00T,推动机器人理解自然语言,并观察人类行为模仿动作;同是 3 月份,斯坦福李飞飞团队发布开源 " 灵巧手 "、成本仅 2.5 万美元;而在 4 月 16 日,波士顿动力先是宣布了数字液压驱动的双足人形机器人 Atlas 退役,不到 12 小时又发布了代表力量与灵活的全电驱动 Atlas 001,展现出腰与脖的全向旋转机构及髋部球形关节……
一级市场的机器人项目投资火热,二级市场的核心零部件厂商、概念股也风起潮涌,人形机器人公司优必选上市后,市值一度超过千亿港元。
然而," 机器人 + 大模型 " 落地狂潮中,仍有保持谨慎乐观的少数者。北航机器人研究所名誉所长、中关村智友研究院院长王田苗就是其中一员。
北航机器人研究所名誉所长、中关村智友研究院院长 王田苗
90 年代初,中国工业机器人尚在萌芽期,王田苗已经进入一个和移动机器人相关的国家重大项目组中,研究无人驾驶技术。30 多年过去,王田苗和团队研发出国内第一款获得许可证的医疗机器人,也成为硬科技领域低调但不可忽视的创业导师。
2020 年,王田苗联合十五位科学家发起成立了 " 智友科学家基金 ", 一如既往,王田苗和团队希望发现和培育服务国家科技战略的早期硬科技项目。具身智能、机器人、机器人上游核心部件正是他关注的重要领域。
与硬氪交流的一个多小时里,王田苗语气中难掩对具身智能或将掀起产业变革的兴奋。中关村智友研究院已经覆盖包括高精度 RV 减速器、全真精密光学影像系统、力传感器柔性智能装备、具身智能 AI 通用机器人平台等软硬件方向。
但在行业沉浮三十多年后,王田苗早已习惯以冷静的目光审视狂热。以 Figure 发布的产品为例,"Figure 机器人在视频中呈现的延迟时长约为 2-3 秒,它使用了 Pipeline、管道型路线,即自然语言发送后、机器人大脑可以理解并生成指令,由指令来控制。当接入通用大脑后,其延迟速度约要乘以 20 倍。" 王田苗告诉硬氪。
具身智能走过半个多世纪,某一款产品的爆火消弭并不会落地和商业化等现实性问题。一个温度骤升的行业需要这样的视角,才不至于在蜂拥而入的资本和宏大叙事中迷失。
围绕具身智能的机遇与挑战话题,硬氪对王田苗进行了专访,以下是本次交流(经编辑):
有效的机器人通用基础模型还未出现
硬氪:对比上一代机器人技术路径,具身智能的革命性体现在哪里?
王田苗: 具身智能强调和追求机器人泛化及大规模应用。第一,它通过嵌入大模型交互,使机器人能够听懂语言,理解客户的指示,并让具身智能体到相应的地方进行操作。第二是结构化的固定环境加上感知垂直大模型,能识别并重建环节,拓宽机器人使用的环境,提高智能化水平。因此,人们期待具身智能即大模型 + 机器人能够实现 " 一脑多机 " 或 " 一脑多型 " 的爆发。
硬氪:具身智能真正得到学术界、工业界、金融界重视是在这两三年。狭义来看,是否可以理解为让机器人通过自我学习进行认知和决策,从而完成相应的任务?
王田苗: 从大语言模型的发展开始,我们可以看到语言处理领域的显著进步。传统的解决方法通常是依赖于知识图谱,并结合人为设计的逻辑以及多个小任务模型来解决问题。然而随着技术不断进步,尤其是 AlphaGo 在围棋领域的优秀表现,以及 AlphaZero 在蛋白质分析方面的突破,人们开始期待用一个通用模型的训练和微调,来解决所有问题。这也是为什么大模型被视为未来社会数字化、智能化、治理化的运行底座。
机器人作为人们改造世界的工具,具身智能概念诞生后,人们开始思考,机器人领域是不是也能诞生这样通用大模型。
目前工业机器人的装机总量约为 300 万台,每年世界 60 万台,中国占总量的一半、是 30 万台。有这样一个 " 通用大脑 " 后,就能大规模、高效率地泛化迁移应用,解决许多问题。
硬氪:那这个机器人通用模型现在出现了吗?
王田苗:目前还没有一个有效的模型出现。
以实时性问题为例。Figure 机器人在视频中呈现的延迟时长约为 2-3 秒,它使用了 Pipeline、管道型路线,即自然语言发送后、机器人大脑可以理解并生成指令,由指令来控制。当接入通用大脑后,其延迟速度约要乘以 20 倍。
硬氪:有什么解决方案?
王田苗: 常见的解决方案是,为不同的任务设定多个小模型,并提供不同的参数训练,端到端减少推理成本。另外,将专用小 GPU 芯片置入到机器人中,也可提高任务实时性,目前特斯拉已在自动驾驶中尝试了这种做法。
硬氪:今年有哪些细分场景的模型值得关注?
王田苗: 今年 3 月,李飞飞团队开发 Behavior-1K,完成了对 1000 种日常活动的定义,并以房屋、花园、餐厅、办公室等 50 个场景为基础,标注 9000 多个拥有丰富物理和语义属性的物体。
接着到 4 月,特斯拉推出多模态大模型 Grok-1.5v,利用端到端高速大模型 FSD 推理,有望连接数字世界与物理世界,解决自动驾驶边缘案例的在线迭代学习问题。
硬氪:业界对机器人「大脑 + 小脑」路线的关注度很高。大脑用大模型认知智能、人机交互以及相关场景的调动,小脑实时控制机器人本体,产生灵巧操作,随着大模型能力提升,是否有可能反哺给小脑,进而带动其感知、行为等能力提升?另外有关技能型劳动操作,会不会具有专业小模型,分别实现高效作业比如焊工、钳工、车工、打磨抛光、喷涂、装配、拆装等。
王田苗: 这个问题正是目前学术界、产业界所关注,并且产生争议的地方。
大脑主要负责慢思维与推理,是智力的核心所在;而小脑则关联着对事物的反应敏感程度,更多涉及身体的协调与运动的控制。从逻辑上讲,人们希望今后机器人的大脑能越来越聪明、弱化小脑能力,力图通过大模型得以统一。比如大模型知道什么是苹果,也知道苹果可以饱腹,当我们向机器人提问 " 什么东西能吃 " 时,机器人就能自动取出一个苹果。但要真正实现它,现阶段仍有很多挑战。
在人类历史进化过程中,人类行为的智能进化远远先于语言智能的进化。这可能意味着语言、视觉感知、触觉感知以及行为等智能在大脑图谱中并不是同一个位置,很可能是由不同模型所驱动的。莫拉维克悖论也揭示了这一现象 -- 电脑下棋容易、感知和行动智能方面却面临挑战,这通常表现为顶层智能的智能程度高、精度差、反应慢,而底层智能的智能程度低、精度高、反应快。
硬氪:更具体看,还有哪些问题是没有解决的?
王田苗:首先是如何让机器人的 " 大脑 " 更聪明。 现阶段机器人在解决复杂环境感知、动作生成、灵巧操作等问题时存在局限性。尽管大模型增强了其学习、语义理解、推理及判断能力,但在从理解、推理、判断、执行到运动系列过程中,还涉及其他多种模型算法和软硬件协同的问题,包括感知智能模型、行为智能模型以及原有智能控制理论,如 MPC 模型预测控制与 WBC 全身协调控制等。
问题一: 机器人基础大模型 RFMS 问题
同时,Scaling laws (尺度定律,这一定律表明,模型大小、数据集大小和用于训练的计算浮点数,与模型的性能存在线性相关。)能否在机器人基础大模型中复现尚未可知,这些技术的开发和迭代本身具有难度,再加上周期较长、投入高,短期内要突破关键技术仍面临着不小的挑战和风险。
问题二: 智能进化与大小模型问题
第三是要解决具身智能大模型与硬件的融合、配合问题。 人形机器人的整机结构复杂,仅零部件就超过 5000 个,从理解指令到执行任务,都是极大的工程量。
因此有观点提出,在机器人的智能层、感知层、动作层中分设 Agent,由 Agent 来调用工具解决具体问题。
问题三: 具身智能的体系结构问题
最后就是落地环节。 机器人产品化过程需要用时间来产生并验证价值,如果说研究具身智能的出发点是为了降低时间成本或提升效率,进而实现生产力的飞跃,而非为了取代人类工作,那么基于场景的融合打磨与迭代至关重要。
问题四: 劳动型具身智能研发优先应用的领域问题
硬氪:要实现专业和通用,过程中的难点是什么?
王田苗: 软件方面的挑战主要是真实、实用、海量数据的产生与训练问题。其中,数据收集尤为关键,机器人所需的数据不仅涵盖互联网数据和视频采集数据,更需要包括众多物理环境中的真实交互数据,这些模拟生成的数据是难以替代的。
此外,数据对齐也是一大难题。语言模型能够学习并生成人类能理解的语言,但在机器人领域,我们面临着海量未标注的异构行为大数据,这使得语义与数据的对齐变得异常困难。其中还涉及到语义歧义问题、模型可能产生的幻觉的安全问题,以及标准化测试平台和训练完成后安全使用评价问题等。
另一方面就是效率与成本问题。从仿生机器人的发展历程来看,自 1997 年日本本田推出的 Asimo 人形机器人,到 2008 年波士顿动力的大狗机器人,再到后续活蹦乱跳的人形机器人,甚至从特斯拉人形机器人到 Figure 人形机器人,我们确实见证了具身智能在大模型、感知、算力等方面有了重大突破。
然而,不能忽视的是,具身智能在结构、驱动、动力等真实能力方面,尚未实现根本性的突破。其中,行为智能成功成本,与 " 行为数据采样学习次数 " 乘以 " 每一次训练成功的成本 " 得到的结果相比,其比值仍然远远小于 1。这导致具身智能的载体性物种在灵巧性、成本性、能源维护性、使用体验安全性等方面仍存在诸多挑战,距离通用机器人走向千家万户还有距离。
此外,实时性和推理速度也是当前具身智能面临的重要问题。目前基于大模型的机器人控制周期在线决策最快也需要 50ms,一般延迟达 1-5 秒,这远远无法满足目前工业应用中对机器人要求 10ms 以下,最好在 3ms 的要求。
硬氪:在机器人和 AI 结合中,有哪些比较关键的成本?
王田苗: 机器人结构复杂,核心零部件决定了其精度、稳定性、负荷能力等重要性能指标,其中技术难度最高分别是减速器、伺服系统和控制器,占成本的 60-70%。加上传感器等其他零部件,都会增加机器人的制造和后期维护的成本。
此外,为了解决实时性问题,需要大量 GPU 算力与训练的能耗。有研究测算,每个 token(1000 token 约为 750 个单词)的训练成本通常约为 6N(N 为参数的计量单位),推理成本约 2N,即推理成本相当于训练成本的三分之一。
机器人的三大主导方向
硬氪:面向开放场景的泛化问题,技术上该怎么解决?
王田苗: 从具身智能的体系结构出发,对机器人下达拿水杯的指令时,这是意图;机器人会将其分解为具体的运动步骤,包括视觉范围内看到水杯、接近、拿起,一系列动作由感知模型和操作模型协同完成,当机器人后续面对多任务场景时,理想状态下它能够利用先前的经验进行复制泛化,减少对编程水平和质量要求。
现实生活中,由于所有的视觉感知都是变化的,人机交互、任务规划、动作轨迹和操作模型需要应对突发性事件,由此也有想法提出,每一层都应有一个具身代理,再根据特定任务产出领域大模型。
硬氪:具身智能会优先在哪些场景中落地?
王田苗: 从广义来看,将机器人和大模型运用在社会上,我坚信会从商务、工业、最后再进入消费环节。
其中,商务场景包括物流(室内外与低空)、出租、药店、超市、清洁、接待等,更容易率先取得突破性进展;第二类是工业与农业,工业包括 、核工业、化学药品、医院传染病处置、电池回收拆装等,农业则包括种植、采摘、分拣、屠宰、上下料、预制菜、包装等;最后才是消费场景,例如打扫、炒菜、陪护、养老、打扫房间、护工保姆等。
硬氪:在产品形态上是否有创新空间?
田苗: 当然。一方面,有工业界和理性的企业热衷于用新技术、新形态去探索专业化的新应用,他们注重技术的实用性和对专业领域的适用性,希望通过不断的技术创新来推动业务发展。
另一方面,大部分学者或怀揣梦想的创业者则认为通用大模型 + 人形机器人是未来的发展方向,更关注技术的前沿性和未来潜力,相信技术将为人类社会带来革命性的影响。
二者有所不同,前者注重应用上的创新性,后者是完全颠覆性的创新,两条路线哪一条率先走通,都离不开市场检验。我们看到,在物流、清洁、无人出租车等场景中,并没有人形机器人的身影,包括焊接、喷涂等环节中多有应用。市场和供求关系紧密相关,家庭环境更关注其智能化、情感化、安全化,工业场景更强调效率、准确率和成本,场景约束不同,两类场景会刺激不同类型的机器人及其核心零部件创新。
硬氪:如何看待机器人接下来要重点突破的发展趋势?
王田苗: 当下有三个主导方向。
第一是攻克核心零部件,包括高动态、高精度、高扭矩的驱动单元,刚柔耦合的新材料灵巧手,人工肌肉与电子皮肤,低成本的生物传感器,上游正向设计的电机或减速器等。
第二是夯实垂直应用并通过出海获得利润,特别是面向具有连锁店或生产服务属性的中小微企业,提供服务应用。
第三是拥抱大模型。包括大脑机器人基础大模型,具身代理 Agents,低功耗专用小模型算力 GPU 与编译器,以及生成式数据动作库;同时,关注小脑实时技能操作、行为智能控制和实时安全评测等方面的技术进展;免编程与安全算法,通用机器人与人形机器人应用 App 的开发也是重要一环;此外,数据服务 -- 垂直模型专用技能数据服务公司," 劳动 " 派遣运营服务公司等也有望成为产业链中不可或缺的一方。相信大模型和机器人会是未来大国可持续竞争力的发展焦点。
未来具身智能的新工业发展机遇
总结来看,回顾过去的自动化终端产品,能达到万亿规模的赛道需要同时满足三个要素,分别是市场、产业链和技术突破,与此同时还应该潜在具有 2G、2B、2C 的应用属性,机器人就是这样理念下的一种重要体现。
来源:36氪