不久前,英伟达成立通用具身智能体研究实验室(GEAR)的消息曝光,将机器人再度推上了风口。
过去一年,AI 大模型浪潮中,以大模型 + 机器人的路径,为人与机器共存提供新的交互模式。甚至有观点认为,机器人大脑的进化速度,主要取决于大模型的发展速度。
市场对机器人的火热反映到实际的资本环境上,是动辄数亿、乃至数十亿的融资项目、相关零部件规模陡然增长、以及下游概念股也乘风而起 ...... 具身智能,成为机器人落地故事里备受瞩目的关键词。
但进入实际的落地中,机器人只能完成一些定制化任务,缺乏对复杂场景认知能力,应用局限;而另一边,机器按照已设定算法运行,也难以产生更大智能,思考能力和决策能力无法得到提升。
如何让具身智能机器人在与人、环境的不断交互中继续学习,成为了一个关键命题。
开放场景下的机器人难题
长久以来,AI 和机器人领域都存在着一个经典悖论——莫拉维克悖论提出,和传统假设不同,计算机要实现例如推理等人类所具备的高阶智慧、仅需少量的计算能力,而若要直觉、感知等能力,却需要巨大的运算能力。
简单来说,电脑可以在和人类围棋对弈中轻松取胜,但如果让机器人为你取出冰箱里的可乐,却并不简单。
这一过程包括了几个必要步骤。首先,机器人需要听懂人发出的指令,将任务进行拆解;第二步是做出决策,确定目标定位并规划行进路线;第三步到达目的地后,面对冰箱里各式物品,机器人既要能识别出 " 可乐 "、还要能控制机械臂完成拣取动作;最后再将物品交到指定地点。
过去,上述行动可以预先设定,但由于技术不成熟,机器人只能提供 case by case 服务;即它只学会了取 " 可乐 ",一旦物品换成 " 雪碧 ",则需要工程师重新设定一套流程。
当机器人迈进真实场景里,往往面临着泛化能力弱、交付难度高的两大痛点。
雅可比机器人 CEO 邱迪聪在与硬氪交谈中,将机器人应用场景划分为封闭式和开放场景。
其中,封闭式场景指采用经典的定制化模式。预设机器人的任务执行边界,用户下发指令后,先收集现有数据进行训练,在限定范围内穷举出所有任务可能性,尽可能覆盖更多的解决路径。
例如工业场景的运输机器人,工程师会针对特定园区提前设置运输线路,机器人只需在固定路径上完成配送任务,灵活性低;即使存在多条路线,这些路径亦经过编排和规划,机器一旦脱离该地图所设定的任务,便无法运转。因此面对新任务,机器人需要再次收集数据训练、设定方案和测试,从而导致了极大的资源和人力损耗。
开放场景则是指不受强封闭式规范和范围限制的长尾问题,如商超服务、居家养老等。当机器人与人、环境进行大量的交互,数据集或存在少样本、甚至零样本的突发情况,这对机器人理解、处理多种任务的泛化能力要求极高。
比如自动分拣,目前机器人可完成物流分拣、仓库分拣,但商超分拣却迟迟未能实现。其主要原因就在于,仓库物流中心的货物可以标准化,按外形、大小分类,同时货品密封性强,有更多冗余。相比之下,商超里品类繁多,同样是 1.5L 白瓶包装,它可能是牛奶、酸奶或是椰汁;再加上品类特性不同,比如鸡蛋和纸巾的抗摔程度大相径庭,这也对分拣机器人提出了极高的要求,从视觉到力控,都必须做的很精准。
在邱迪聪的设想中,机器人不应只是指令的执行者,还要具备举一反三的学习能力。" 今天机器人在清扫、巡检等任务中可以做得很好,但想要真正走进人们日常生活,离不开它的感知、决策、执行能力。"
而 2023 年国内大模型的爆发式增长,令邱迪聪看到了 AI+ 机器人的新机会。邱迪聪毕业于美国卡内基梅隆(CMU)大学机器人学院,曾参与 NASA 火星车研发、L4 级自动驾驶等项目,有超过 8 年 AI 与机器人跨领域研究和落地经验。
随着技术改进和成本下降,扫地机器人、工业手臂等任务型机器人渗透率显著提高。但要提高机器人智能水平,需要更先进的算法和数据支撑。
自然语言的数据是离线的,属于方法论上的学习;而机器人决策离不开很多高质量数据,其中多数来自于开放场景中遇到的突发性状况。由此,从单一的封闭式场景任务向开放场景延展,成为机器人从业者鱼贯而入的一条路径。
去年 4 月,邱迪聪和团队成立了雅可比机器人,聚焦具身智能商超服务机器人,通过人类语音指令的控制,即可让机器人在商超场景下实现多任务执行能力,包括自主巡检、自动补货、货品分拣等。4 个月后,雅可比机器人完成天种子轮融资,投资者包括 AI 大牛、奇绩创坛创始人陆奇。
一边是开放场景对机器人提出的极高要求,包括开放词汇的感知能力、非机器学习方法的任务规划、高频任务执行的闭环能力等;另一边,大模型的语义理解、抽象规划和推理等能力被印证,可以处理许多复杂任务,这为机器人在长尾场景中应用提供了一个可行性的通路。
给机器人装上「大脑 + 小脑」
诺贝尔经济学奖得主 Daniel Kahneman 曾在《Thinking Fast And Slow》一书中提出,人类的两种思考模式,第一种是以直觉判断为主的 " 快思考 ",第二种是 " 慢思考 ",需要进行大量的推理和计算。
大模型与过去 AI 技术不同点就在于,它采用了 " 慢思考 " 模式,令机器人可以在与人类的交互中不断学习,获得更好解决任务、解决更多任务的能力。但也正因如此,关注 AI、机器人赛道的投资人郭旭告诉硬氪,绝大部分落地或完整的机器人产品和项目,普遍希望 " 一招通吃 ",例如大模型的能力很强,就想直接做一个端到端的巨型通用模型来解决所有问题。
对此邱迪聪指出," 从实际 ROI 投入产出比的角度来说,可能不一定划算、或者说不一定适合当前这个阶段。"
开放场景用户的需求复杂,大模型的训练和推理费用高昂。据海外《The Economics of Large Language Models》研究测算,每个 token(1000 token 约为 750 个单词)的训练成本通常约为 6N(N 为参数的计量单位),推理成本约 2N。即推理成本相当于训练成本的三分之一。一旦模型上线使用,其推理成本可能远超训练成本。
因此,大模型应用于机器人的部署成本也很高。最终带来的结果是,其市场价格并非普通中小型企业能消费得起的,市场规模和普及程度有限。
要平衡这种尴尬局面,类人脑机器人不失为一个重要的探索方向。即让机器人模仿人脑的运转分工,通过 " 大脑 + 小脑 " 两个结构互补,大脑负责视觉、听觉和意识等高层次的感知和决策功能,小脑则负责协同数据来控制运动、平衡和行为姿态。
以邱迪聪和团队提出的 " 通用机器人大脑 " 为例,通用机器人大脑由 " 大脑 "J-Mind 和 " 小脑 "J-Box 构成,J-Mind 负责理解任务、下发指令,并交由 J-Box 来执行。
首先在感知层,结合了 LLM+VLM(大型视觉 - 语言模型)的技术路线可以就指令、结合物理环境进行理解,提高机器人对开放场景的认知能力,即不仅能 " 看到 " 场景中的各种物品, 还能 " 看懂 " 用户的需求。比如机器人原先只认识可乐,但在看到雪碧、橙汁等新物品时,可以通过其外形与可乐相似、" 推断 " 出它们也是罐装饮料,并读取包装信息,从而认知到新物品。
雅可比机器人工作中
邱迪聪告诉硬氪,雅可比机器人之所以选择商超作为自身产品的首个应用场景,正是因为商超的人员聚集效应,有大量反复的物品信息和交互产生,可以为机器人自我学习提供数据支撑。也即是说,机器人是从真实场景中收集数据实时学习,而非在已有的数据库找答案。
在决策层,机器人通过 J-Mind 可以将用户需求转化具体的指令和子步骤,形成任务分配输出与决策动态闭环,下发执行任务给到 J-Box。随后,再由 J-Box 来驱动机器人完成操控、抓取、放下等动作。
机器人正在进行「抓取、放下」
例如,当商超货架缺货时,店员只需以口头或文字输入的形式,提出 " 货架上可乐缺货、需补货 " 的指令,雅可比机器人可自动移动到所需补货的货架前,识别货架陈列状态。当 J-Mind 在多类物品识别到可乐后,可将补货指令拆解为子步骤,由 J-Box 来抓取可乐、并把可乐放置到货架的空缺位置中。
这种 " 大脑 + 小脑 " 路线在通用机器人大脑的基础框架上,集成了很多经典的主流机器人算法,无需部署工程师,开箱即可使用;同时还支持人工调度和机器人自动化协助,灵活性更高,由机器人大脑来判断任务是否需要调用大模型、亦或是用算法就能解决的,进而降低服务成本。
商业化困局:迭代周期长、高成本
公开数据显示,2017 年至 2021 年五年间,全球智能服务机器人从原本未达百亿的市场增长至 200 亿美元,预计到 2026 年将超过 600 亿美元。
其中,中国智能专业服务机器人市场也从 2021 年的百亿元、预计到 2026 年可迈向千亿规模,增速较快。
可以看到,相比于商场里只能移动或展示广告的传统机器人,大模型的出现让人们看到了具身智能的希望,以雅可比为代表的商超机器人已经实现了一个台阶的提升。
不过,其痛点也依旧存在。在技术层面,大模型增强了机器人的理解能力,但机器人本身是一个复杂的跨学科系统,涉及仿生学设计、AI 应用、动力学建模、能量管理等等,要实现从理解、决策到控制运动、执行任务,还需要匹配各种算法和软件。AI 技术升级迭代不是线性发展的,周期长、投入高,存在长期无法突破关键技术的风险。
硬件方面,机器人的征集结构复杂,核心零部件决定了其精度、稳定性、负荷能力等重要性能指标,其中技术难度最高分别是减速器、伺服系统和控制器,占成本的 70%。加上传感器等其他零部件,这些都会增加机器人的制造和后期维护的成本。
邱迪聪就告诉硬氪,商超场景客户对 ROI 十分关注。为此,雅可比机器人已找到核心零部件的供应渠道," 这种方式的成本控制空间较高,核算下来符合预期。"
此外,机器人在产品化过程中,基于开放场景的融合打磨和迭代,也需要时间来产生和验证价值。
某机器人厂商的市场负责人向硬氪表示," 下游买家一定是需要拓展和教育的,很难实现一上市就得以被接受和认可。解决方法一是产品持续迭代,二是要与客户保持紧密沟通,这是一个共同打磨产品、共同打磨场景的过程,通过这种共创的形式,发掘更多产品价值。"
例如除商超场景外,雅可比机器人也在探索餐饮服务、办公室、家用等环境。机器人作为餐厅服务员可以完成点菜、上菜等任务;作为公司前台可以引导访客,并完成材料分发、倒水等任务;作为家庭助手,协助整理衣物、擦洗家具等。
机器人餐饮服务工作流程
" 我们最终的目标是,从商超场景出发,将机器人所学迁移至更多场景中,进入到日常的家庭生活,真正实现多个任务的自动化闭环。" 邱迪聪说到。
无法否认,目前市场上的机器人整体还处于一种 " 玩具 " 的阶段,远没有达到大规模产业化的地步。但可以期待的是,通过机器人和大模型的融合方法,有 " 大脑 + 小脑 " 的仿真演化,有大模型与经典算法的自动化协同,有规则和模型的相互转化,一个更复杂的、可以不断自我成长的机器人智能体或许已经不远了。
来源:36氪