图片



1 具身智能打开万亿蓝海市场

复盘机器人发展历程,具身智能时代已经到来。传统的工业机器人、协作机器 人等需要按照提前设定好的程序步骤进行固定的工作,或者依靠传感器部件调整 自身行为。通过搭载人工智能模型,具身智能机器人则有着智能化程度高、工作场 景限制小、能够自主规划复杂工作的特点。

具身智能机器人已经成为由“本体”和“智能体”耦合而成且能够在复杂环境 中执行任务的智能系统。据高新兴机器人,具身智能机器人能够听懂人类语言,然 后分解任务,规划子任务,在移动中识别物体,与环境交互,最终完成相应任务。 当前,已有不少研究者尝试将多模态的大语言模型与机器人结合起来,通过将图像、 文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,帮 助机器人处理具身推理任务。

复盘人工智能发展历程,下一发展阶段将是物理 AI。在 2025 CES 的演讲上, 黄仁勋表示,AI 的发展有四个阶段,物理 AI 将是 AI 发展的下一个阶段,而通用 机器人将是物理 AI 的核心载体。通用机器人给予人工智能身体,让人工智能有了 直接改变物理世界的能力。AI 对机器人的赋能主要集中在感知与决策层,使机器 人能够与环境交互感知,自主规划决策行动。

站在具身智能时代的临界点,人形机器人有望成为新一代智能终端,并开启万 亿级蓝海市场。人形机器人兼具仿人外形与人工智能,具备操作人类生产生活工具 的可能性,有望成为继个人计算机、手机和智能汽车之后的新一代智能终端。马斯 克于 2023 年特斯拉股东会议上预测,未来全球的人形机器人数量有望达到 100 亿到 200 亿台,在人类生活和工业制造场景中得到应用,人形机器人将开启万亿 级别蓝海市场。

2 机器人“大脑”的时代机遇:具身智能大模型

2.1 多模态大模型为机器人高层级控制带来技术突破

具身智能指的是机器人通过在物理世界和数字世界的学习和进化,达到理解 世界、互动交互并完成任务的目标。据稚晖君,具身智能需要本体、智能体、数据、 学习和进化架构四大核心要素。

一般来讲,我们可以将一台通用人形机器人本体分为“大脑”、“小脑”和“肢 体”三部分,分别对应决策交互模块、运动控制模块和执行模块。其中,人形机器 人“大脑”的核心为人工智能大模型技术,通过多模态模型建模、强化学习、地图 创建和数据训练,能够管理和协调机器人的各种功能。“大脑”是机器人智能与高 级决策的核心,也是具身智能时代机器人区别于程序控制机器人(传统工业机器人、 协作机器人等)的关键环节。

让机器人“大脑”实现突破最核心的推动力是大模型实现涌现、成为真正的生 产力。大模型的能力与机器人的需求十分契合,只需要告诉机器人它要做的任务是 什么,机器人就会理解需要做的事情,拆分任务动作,生成应用层控制指令,并根 据任务过程反馈修正动作,最终完成人类交给的任务,整个过程基本不需要或者仅 需少量人类的介入和确认,基本实现了机器人自主化运行,无需掌握机器人专业操 作知识的机器人应用工程师介入。

大模型目前较为擅长需求理解、任务分解等高层级控制任务。根据《基于大模 型的具身智能系统综述》,传统机器人的分层控制可以分为规划级、动作级、基元 级、伺服级四个层次,具身智能机器人的控制一般可以粗略地分为高层和低层,其 中高层负责全局、长期的目标,包括需求级、任务级、规划级和动作级;低层负责 具体操作与及时反馈,包括基元级与伺服级。与传统机器人相比,具身智能机器人 增加了需求级与任务级的控制。虽然大模型具有丰富常识与较强的推理能力, 但精 确性、实时性较差, 所以目前往往不会直接参与机器人的低层次控制, 而是通过需 求理解、任务规划、动作生成等方式进行较高层级的控制。规划级以下的控制规划 属于传统机器人控制规划的范畴,更适合传统机器人更成熟的高频控制方法。

多模态大模型突破单一模态大模型的局限性,强化了机器人多模态信息整合、复杂任务处理等泛化能力,是人形机器人大模型的技术支撑。语言、图片、视频等 单一模态大模型以大语言模型(LLM)为基础,将强大的 LLM 作为“大脑”来执 行多模态任务。但 LLM 只能理解离散文本,在处理多模态信息时不具有通用性。 另一方面,大型视觉基础模型在感知方面进展迅速,但推理方面发展缓慢。 由于两者的优缺点可以形成巧妙的互补,单模态 LLM 和视觉模型同时朝着彼 此运行,结合上部分的图像、视频和音频等等模态,最终带来了多模态大语言模型 (MLLM)的新领域。形式上,它指的是基于 LLM 的模型,该模型能够接收多模 态信息并对其进行推理。从发展人工通用智能的角度来看,MLLM 可能比 LLM 向 前迈出一步。MLLM 更加符合人类感知世界的方式,提供了更用户友好的界面(可 以多模态输入),是一个更全面的任务解决者,不仅仅局限于 NLP 任务。

2.2 国内外科技巨头与机构入局,具身大模型成果涌现

具身智能机器人操作系统有望推动人机交互的革命和人形机器人商业化落地 进程,成为国内外科技巨头和科研机构的兵家必争之地: 1) 微软:发表论文《ChatGPT for Robotics》等系列论文探究使用 GPT 控 制机器人,微软建立高级机器人 API 或函数库(技能库),用户使用自然 语言描述需求后,GPT 灵活选用已有 API 或自行编程完成任务; 2) 谷歌:连续发布 SayCan、Palm-E、RoboCat、RT-1、RT-2、RT-X 等多 个具身智能大模型,探究不同具身智能机器人操作系统的技术路线,包括 使用真实数据训练的 VLA 路线以及通过合成数据训练的路线等; 3) 英伟达:在 2025CES 上提出用于加速物理 AI 开发的平台 Nvidia Cosmo 及一系列世界基础模型,世界基础模型可以预测和生成虚拟环境 未来状态的物理感知视频的神经网络,以帮助开发者构建新一代机器人; 4) 李飞飞团队:发布 VoxPoser 系统,通过 3D Value Map+LLM+VLM 相结合的方式,根据用户自然语言直接输出运动轨迹操控机器完成任务; 5) 特斯拉:Tesla Optimus 能够完成分拣物品、做瑜伽等操作,其神经网络 训练是完全端到端的,即直接从视频输入中获取信息,并输出控制指令; 6) 国内团队:智元机器人、字节跳动、科大讯飞等众多国内厂商已经推出具 身智能系统或机器人产品。

目前的具身智能架构分为端到端模型与冻结参数的大模型结合基础模型。端 到端的架构可以直接从输入数据到目标结果, 不需要进行提示词工程, 较为简洁 高效, 往往在规划级、动作级中使用; 冻结参数的大模型结合基础模型使用的大模 型通常是在广泛的数据上预训练好的, 在利用大模型的强大能力的同时保留了对 特定任务进行微调的灵活性,在需求级、任务级中使用较多。使用预训练模型可以 显著减少训练时间和所需的数据量, 普遍适用于数据较为稀缺的任务。

2.2.1 谷歌:SayCan、RT-1、PaLM-E、RT-2 到 RT-X

1) SayCan:定位 High-Level,Do As I Can, Not As I Say

2022 年 4 月发布,SayCan 模型的核心出发点是为机器人提供既有用又可行 的行动指引。PaLM-E 虽然可以将任务拆分为符合语义逻辑的子任务,但是无法判 断其所设定的子任务是否能在现实世界中执行。究其原因在于,大语言模型缺少对 真实物理世界的客观原理的深刻理解与经验参考,其生成的子任务虽合逻辑,但是 机器人在执行过程中可能会遇到无法顺利操作的困难。以“我把饮料洒了,你能帮 忙吗?”为例,现有的大语言模型可能会回答 “你可以试试用吸尘器”、“对不起, 我不是故意洒的”, 虽然这些回应听起来很合理,但当前环境中的机器人并不具备 使用吸尘器的能力,亦或者当前环境中根本没有吸尘器。

SayCan 尝试将大模型 LLM 与物理任务联系起来并解决上述问题。其中,Say 代表大模型 LLM,用于输出可用的高层级运动指令,Can 代表机器人在当前环境 下能做的事情,二者通过值函数(Value Function)的方式结合起来,共同决定选 择哪条指令用于实际执行。

2) RT-1:开启 Transformer 与机器人的结合

RT-1 的核心模型架构是将指令和图像 token 化,再做 token 的压缩并输出 动作。RT-1 将机器人动作的每个维度进行均匀离散化,并将动作词元化,然后使 用监督学习的损失进行训练。为了使视觉-语言模型能够控制机器人,还差对动作控制这一步。该研究采用了非常简单的方法:他们将机器人动作表示为另一种语言, 即文本 token,并与 Web 规模的视觉-语言数据集一起进行训练。

3) PaLM-E:多模态理解能力的飞跃

PaLM-E 可以把高层级的任务拆分成若干个在语义上符合逻辑的子任务,再根 据已采取步骤的历史记录和当前对场景的图像观察来生成计划的下一步。以“把抽 屉里的薯片拿来给我”为例,PaLM-E 模型将输出以下机器人的运动指令:1、移 动到抽屉旁边;2、打开抽屉;3、把薯片从抽屉里拿出来;4、把薯片带到用户旁 边;5、放下薯片;6、任务结束。

4) RT-2:结合 RT-1 与 PaLM-E,首个 VLA 大模型

RT-2 将输出的动作进行和 RT-1 相同的离散化操作后将词元加入视觉-语言模 型原先的词表中,可以把动作词元视为另外一种语言进行处理,无需改变原有视觉 -语言模型结构设计。由于 RT-2 已经在海量的视觉问答任务中进行预训练,在对 图片和任务指令的理解上有更加丰富的经验,在任务集合上具有更强的泛化能力。 例如在下图的拾取、移动、放置等具体任务中,智能体能够精准识别任务需求并且 以过往训练经验为基础准确地完成。

5) RT-X 系列:数据驱动泛化性及成功率跃升

2023 年 10 月发布,RT-X 系列模型核心是让机器人学习更多机器人的“动 作”,达到更强的任务泛化和更高的任务成功率。谷歌构建 Open X-Embodiment Dataset 数据库,覆盖从单机械臂到双手机器人和四足机器人等 22 个类型的机器 人的 527 个机器人的“动作”。与 RT-1 相比,RT-1-X 任务完成的成功率提升 50%; 与 RT-2 相比,RT-2-X 展现出更好的任务泛化能力, RT-2-X 的成功率是其之前 的最佳模型 RT-2 的三倍,这也说明了,与其他平台的数据进行联合训练可以为 RT-2-X 赋予原始数据集中不存在的额外技能,使其能够执行新任务。

6) RoboCat:机器人的自我提升

2023 年 6 月发布,RoboCat 可以通过自己生成训练数据集的方式更快完善 其能力。谷歌将 Gato 的架构与大型训练数据集相结合,该数据集包含各种机器人 手臂的图像序列和动作,可解决数百个不同的任务。在第一轮培训之后,RoboCat 进入了一个“自我提升”的培训周期,其中包含一系列以前看不见的任务,每个新 任务的学习遵循五个步骤:1)使用由人类控制的机械臂收集 100-1000 个新任 务或机器人的演示;2)在这个新任务/分支上微调 RoboCat,创建一个专门的衍 生代理;3)衍生代理在这个新任务/手臂上平均练习 10,000 次,生成更多训练 数据;4)将演示数据和自生成数据整合到 RoboCat 现有的训练数据集中;5) 在新的训练数据集上训练新版本的 RoboCat。谷歌提出,RoboCat 只需 100 个 演示即可完成一项新任务,这种能力将有助于加速机器人研究,因为它减少了对人 类监督训练的需求,是创建通用机器人的重要一步。

2.2.2 特斯拉:坚持端到端算法路线,感知决策一体化

FSD 全称 Full Self-Driving(完全自动驾驶),是特斯拉研发的自动化辅助 驾驶系统,目标是实现 L5 级别的自动驾驶。FSD V12(Supervised)是全新的 “端到端自动驾驶”,模型架构发生了重大变化。据特斯拉 CEO 埃隆·马斯克表示, 特斯拉 FSD V12(Supervised)需要人工干预的频率只有 FSD V11 的百分之一。 FSD V12(Supervised)完全采用神经网络进行车辆控制,从机器视觉到驱动决 策都将由神经网络进行控制。该神经网络由数百万个视频片段训练而成,取代了超 过 30 万行的 C++代码。FSD V12(Supervised)减少了车机系统对代码的依 赖,使其更加接近人类司机的决策过程。

FSD V12 为首个端到端自动驾驶系统,实现感知决策一体化。特斯拉 FSD v12 采用端到端大模型,消除了自动驾驶系统的感知和定位、决策和规划、控制和执行 之间的断面,将三大模块合在一起,形成了一个大的神经网络,直接从原始传感器 数据到车辆操控指令,简化了信息传递过程,因而减少了延迟和误差,提高了系统 的敏捷性和准确性。FSD V12 能够模拟人类驾驶决策,成为自动驾驶领域全新发 展路径。FSD V12 也被称为“Baby AGI(婴儿版通用人工智能)”,旨在感知和理 解现实世界的复杂性。

特斯拉将车端 FSD 迁移至人形机器人。端到端算法从汽车自动驾驶迁移至人 形机器人几乎不需要做太多额外工作,车本身就是一种机器人。早期的特斯拉 Optimus 机器人使用了与汽车完全相同的计算机和摄像头,通过让汽车的神经网 络在机器人上运行,它在办公室里走动时仍试图识别“可驾驶空间”,而实际上它 应该识别的是“可行走空间”。这种通用化能力表明了很多技术是可以迁移的,虽 然需要一些微调,但大部分系统和工具都是通用的。

2.2.3 字节 GR-2:高效动作预测与泛化能力

GR-2 的训练包括预训练和微调两个过程。GR-2 在 3800 万个互联网视频 片段上进行生成式训练,也因此得名 GR-2(Generative Robot 2.0)。这些视频 来自学术公开数据集,涵盖了人类在不同场景下(家庭、户外、办公室等)的各种 日常活动,以期迅速学会人类日常生活中的各种动态和行为模式。这种预训练方式 使 GR-2 具备了学习多种操作任务和在多种环境中泛化的潜能。庞大的知识储备, 让 GR-2 拥有了对世界的深刻理解。 在微调阶段,GR-2 通过几项关键改进提升了其在实际任务中的表现。首先, GR-2 引入数据增强技术,通过改变训练数据中的背景和物体,使其在未见环境下 更具泛化能力。此外,模型通过多视角训练,利用不同角度的视觉数据,增强了其 在复杂场景中的操作灵活性和准确性。为了保证动作的流畅性,GR-2 使用了条件 变分自编码器(cVAE),生成连续、平滑的动作序列,确保任务执行时的动作更加 高效和精准。 在经历大规模预训练后,通过在机器人轨迹数据上进行微调,GR-2 能够预测 动作轨迹并生成视频。GR-2 的视频生成能力,让它在动作预测方面有着天然的优 势,显著提高了准确率。它能够通过输入一帧图片和一句语言指令,预测未来的视频,进而生成相应的动作轨迹。如下图所示,只需要输入一句语言指令:“pick up the fork from the left of the white plate”,就可以让 GR-2 生成动作和视频。 可以看到,机械臂从白盘子旁边抓起了叉子。图 29 右图中预测的视频和真机的实 际运行也相差无几。

GR-2 的强大之处不仅在于它能够处理已知任务,更在于其面对未知场景和 物体时的泛化能力。无论是全新的环境、物体还是任务,GR-2 都能够迅速适应并 找到解决问题的方法。在多任务学习测试中,GR-2 能够完成 105 项不同的桌面 任务,平均成功率高达 97.7%。此外,GR-2 还能够与大语言模型相结合,完成 复杂的长任务,并与人类进行互动,并可以鲁棒地处理环境中的干扰,并通过适应 变化的环境成功完成任务。。 在实际应用中,GR-2 相比前一代的一个重大突破在于能够端到端地完成两 个货箱之间的物体拣选。无论是透明物体、反光物体、柔软物体还是其他具有挑战 性的物体,GR-2 均能准确抓取。这展现了其在工业领域和真实仓储场景的潜力。 除了能够处理多达 100 余种不同的物体,如螺丝刀、橡胶玩具、羽毛球,乃至一 串葡萄和一根辣椒,GR-2 在未曾见过的场景和物体上也有着出色的表现。

2.3 具身大模型的关键挑战

2.3.1 关键挑战一:泛化性弱

完整报告可扫描下方图片二维码进入社群查阅下载

(报告来源:民生证券本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。

我们组建了研究报告知识星球社群,加入后您可以享受以下服务:
1、星球中分享最新、专业、深度的行业研究报告、投行报告、白皮书、蓝皮书、公司研报等。报告持续更新,公众号发布的报告可同步下载;
2、海量研究报告均可下载PDF高清版,无限制;
3、会员可以用提问方式获取具体报告需求;

扫描下方二维码加入星球

图片

业务咨询、商务合作:136 3162 3664(同微信)

温馨提示



应广大粉丝要求,「报告研究所」成立了报告交流群,欢迎各位公司企业、投行、投资机构、政府机构、基金、创业者及金融资本圈朋友加入!

这里能且不限于:“行业交流、报告交流、信息交流、寻求合作等......”

入群方式:添加助理微信【touzireport666】,发送「个人纸质名片」或电子名片」审核后即可入群。