从宝马工厂到你家客厅:机器人基座模型的 2026 进展展会快讯

具身智能，简单说就是让 AI 拥有物理身体，能在真实环境中自主感知、判断和行动。上一篇聊的世界模型负责"理解物理规律"，具身智能则是把这种理解装进真实的机器人硬件里。传统工业机器人只会按预设程序重复同一个动作，焊接精度能到 0.1 毫米，但你把焊件挪两厘米它就不会了。具身智能要解决的正是这个问题——让机器人能应对没见过的情况。

一台机器人走进厨房，看到台面上有打翻的咖啡、一块抹布和一个垃圾桶，没人下指令，它自己判断该先擦桌面、再扔抹布、最后检查地面。这不是靠 if-else 代码，而是从大量训练数据中习得的"物理常识"在起作用。2024 年这还是实验室演示，到 2026 年初，至少六家公司的机器人开始在真实环境中做到类似的事。

从"预编程"到"物理常识"

传统工业机器人的工作方式很直接——工程师写好每一个动作的精确参数，机器人严格执行。这在汽车装配线上运转良好，但到了家庭厨房或仓库这类充满变数的环境，就完全行不通了。桌上的杯子可能在任何位置，抹布可能被揉成任何形状，地面可能是瓷砖也可能是地毯。

2025 年底到 2026 年初发布的新一代机器人模型，普遍采用了一种叫做 VLA（视觉-语言-动作）的架构。简单来说，就是把"看"（摄像头输入）、"懂"（语言理解）和"做"（动作输出）整合进一个端到端的神经网络。机器人不再依赖工程师提前编好的动作序列，而是根据自己"看到"的环境和"理解"的指令，实时决定下一步怎么动。

这种架构带来了一个关键变化：涌现行为。机器人在训练中积累的经验开始泛化到从未见过的场景。比如，一台在模拟环境中学会了推门的机器人，面对一扇从未见过的、更重的门时，会自动调整力度和姿势——不是因为有人教过它推这种门，而是它从大量推门经验中提取出了"物理常识"。

相关阅读:视觉语言模型（更好、更快、更强）

智能体群像蚂蚁一样协作，智能体经济在悄然兴起

下面这张图展示了 VLA 架构的核心工作流——从感知到决策再到执行的完整链路：

以下是目前进展最值得关注的六个模型和系统。

NVIDIA Isaac GR00T N1.6：给所有机器人造一个通用底座

NVIDIA 在 2025 年 10 月发布了 Isaac GR00T N1.6，定位是人形机器人的通用基座模型。它不是一款具体的机器人产品，而是一套其他厂商可以直接拿来用的"AI 底座"。

N1.6 的核心升级是集成了 Cosmos Reason——一个专为物理 AI 设计的推理引擎。它的作用是把模糊的人类指令拆解成机器人能执行的具体步骤。你说"把桌上的东西收拾一下"，Cosmos Reason 会判断桌上有什么、哪些需要扔掉、哪些需要归位，然后生成一串动作指令。

另一个重要进步是全身协调控制。之前的人形机器人在执行任务时经常"顾此失彼"——手在操作的时候身体重心不稳，或者走路的时候没法同时拿东西。N1.6 在躯干和手臂的协同上做了大量优化，使得机器人在推开沉重的门或搬运不规则物体时，能实时调整重心。

围绕 GR00T N1.6，NVIDIA 还搭建了一套完整的配套设施：

Cosmos 世界模型负责解决训练数据不够的问题。真实世界的机器人操作数据又贵又少，Cosmos 能基于物理规律自动生成合成训练数据——不是简单的视频渲染，而是包含正确物理反馈的模拟环境。Cosmos Predict 2.5 能生成长达 30 秒的多视角高清模拟视频，Cosmos Transfer 2.5 则能把 3D 仿真场景转化为光影真实的视觉数据。

Newton 物理引擎专门为高自由度人形机器人设计，支持在雪地、碎石等极端地形下的高频力学反馈模拟，确保机器人在虚拟环境中学会的步行技巧能迁移到真实世界。

Jetson T4000 芯片则解决了机载算力的问题。这款模块让人形机器人可以在本地运行复杂的 VLA 模型，而不需要时刻连着云端服务器。

NVIDIA 的策略很清楚：不自己造机器人，而是做机器人行业的"Intel Inside"。整套生态的层次关系如下：

Figure 03 与 Helix：从宝马工厂走向家庭

Figure AI 在 2025 年初结束了与 OpenAI 的合作，转而全力开发自研的 AI 平台 Helix。2025 年 10 月推出的 Figure 03，是 Helix 平台能力的集中体现。

Helix 的架构分为两层。高级规划系统负责理解自然语言指令并制定任务目标，运行频率较低；低级执行系统则以每秒 200 次的高频运作，处理精细的运动补偿和力矩控制。这种双层设计让 Figure 03 能同时处理"理解指令"和"精确操作"两件事。

硬件上，Figure 03 的视觉系统帧率大幅提升，延迟明显降低，视野也更广。但最值得关注的是手部传感器——指尖集成的触觉传感器可以检测低至 3 克的压力。这意味着什么？它可以拿起一个鸡蛋而不捏碎，可以抓住一个滑腻的洗涤剂瓶，可以安全地处理破碎的餐具。

Figure AI 在 2025 年 11 月披露了 Figure 03 在宝马斯帕坦堡工厂的部署数据。数千小时的真实工业运行数据被反馈到 Helix 模型中，用于提升稳定性和异常恢复能力。这些工厂经验正在被"迁移"到家庭场景——Figure 03 采用了柔软的纺织材料覆盖层和多密度泡沫保护，不只是为了美观，更是为了通过家庭安全标准。

Figure AI 的路线是垂直整合：从视觉感知、任务规划到电机控制，全部自研。这条路风险高，但一旦跑通，护城河也深。

Physical Intelligence π0.6：强化学习的深度进化

旧金山的 Physical Intelligence（PI）在 2025 年 11 月发布了 π0.6 和 π*0.6 模型，被认为是目前处理复杂长程任务表现突出的基座模型之一。

PI 的核心方法论叫 RECAP（通过优势条件策略的经验与修正强化学习）。传统的模仿学习有一个固有缺陷：机器人照着人的演示做，但执行过程中的微小偏差会不断累积，最终导致任务失败。RECAP 的解法是引入"教练机制"——人类远程操作员在机器人出现偏差时实时进行修正演示，模型通过强化学习来学习"如何从错误中恢复"，而不只是"如何完美执行"。

这种"允许犯错、学会纠错"的训练方式带来了很实际的效果：

在咖啡制作任务中，π0.6 能在工厂环境中连续运行数小时，制作各种意式咖啡，成功率很高。在衣物折叠任务中，机器人能处理多种从未见过的衣物，即使光影、布料褶皱和初始位置完全不同，也能保持稳定输出。在巧克力包装工厂的实测中，机器人完成了大量包装箱的组装和贴标，展现了应对物理阻力和从误抓中自我修复的能力。

π0.6 基于一个 50 亿参数的视觉语言模型，加上一个专门的"动作专家"模块。它还支持异构提示——同时处理语音指令和关于执行质量的调节信息，比如"快一点但不用太精确"或"慢一点确保不洒"。

Atlas 人形机器人深度整合。这个组合把目前逻辑推理能力突出的 AI 大脑和运动能力突出的机器人身体放到了一起。

Gemini 3 采用稀疏混合专家架构，拥有超长的上下文窗口。这意味着 Atlas 可以"记住"整个工厂车间的布局或数小时的连续操作指令。但大模型的推理速度不够快，没法直接驱动机器人的实时运动。解决方案是加了一个实时动作解码器，把 Gemini 3 的高层决策翻译成 50Hz 的低层运动指令，响应延迟控制在 20 毫秒以内。

这套系统带来的一个亮点是少样本学习。传统的强化学习可能需要上万小时才能训练出一个技能，而 Gemini 3 赋予 Atlas 的能力是：仅需几次演示，就能理解"清理打翻的液体并找到提示标志"这种跨领域的复杂任务。

2026 版 Atlas 不再是科研原型，而是为现代汽车（Hyundai）工厂设计的量产型号。全身支持 360 度旋转的主动关节，搭载超过 2000 TFLOPS 的本地推理算力。首批 Atlas 将在 2026 年交付给现代汽车进行联合调试，目标是到 2028 年实现每年 3 万台的产量。

小鹏 IRON：把自动驾驶的能力装进机器人

2025 年 11 月的小鹏 AI Day 上，何小鹏展示了 XPENG IRON 人形机器人。这款产品最显著的特点是：它的"大脑"直接借用了小鹏自动驾驶团队积累的软硬件能力。

IRON 采用"三脑"架构——VLT（视觉-语言-任务）负责理解高层指令，VLA（视觉-语言-动作）负责运动控制，VLM（视觉-语言模型）负责环境感知。三颗自研 Turing AI 芯片提供算力支持，远超目前大多数人形机器人的车载计算能力。训练数据量达到 1 亿段自动驾驶视频剪辑，相当于 6.5 万年的经验积累。

相关阅读:德勤2026技术趋势报告深度解读：当AI从实验室走向生产线

硬件方面，IRON 是全球首款搭载全固态电池的人形机器人。固态电池带来三个直接优势：受到撞击或穿刺也不会起火（室内使用的安全门槛）、能量密度更高意味着更轻的体重和更长的续航、支持快速充电缩短补能周期。全身拥有高达 82 个自由度，手部采用业界最小的谐波减速器，实现了接近真人手部尺寸的精细操作能力。

小鹏的策略和西方厂商不同。Figure AI 和 Boston Dynamics 瞄准的是"通用劳动"的终极目标，小鹏走的是"双线并行"——一方面把 IRON 部署在自家汽车展厅和商业中心做服务型智能体，尽早产生商业价值；另一方面与工业巨头合作，在单一任务中快速积累真实运行数据。2026 年底计划开始量产。

1X NEO 和 Skild Brain：两条不同的"通用化"路径

除了上面五个主要玩家，还有两条值得关注的路线。

1X Technologies 的 NEO 是第一款面向普通家庭的人形机器人，由 OpenAI 支持，2025 年 10 月开启预订，2026 年开始交付。NEO 的设计理念完全倾向于家庭安全——不同于其他厂商采用的刚性电机传动，NEO 使用了专利的腱驱动技术。手臂和腿部由柔性电缆驱动，全身覆盖柔性针织外壳，碰撞时有天然的缓冲。

NEO 的 AI 系统 Redwood 有一个很聪明的冷启动方案：对于 NEO 不会做的家务，主人可以预约远程操作员（戴着 VR 头显）接管机器人进行演示。操作员的每次演示都会被 Redwood 模型记录为训练数据，实现"在岗学习"——用户越用，机器人越聪明。

Skild AI 的 Skild Brain 走的是另一条路。它不绑定任何特定的硬件形态，目标是建一个能同时驱动四足机器人、双足人形、机械臂和移动底座的"通用大脑"。2026 年 1 月完成了 14 亿美元的 C 轮融资。

Skild Brain 的训练方式也很特别：跳过昂贵的真机演示，直接"观看"互联网上数亿小时的人类活动视频进行学习，将视觉信号自动转化为机器人的物理经验。部署到新环境后，它还能根据实时收集的数据持续优化运动策略——不是死板执行预设程序，而是不断适应。

一个正在被验证的 Scaling Law

2025 年 11 月，一篇关于"具身智能缩放定律"的研究引发了行业关注。研究发现，物理 AI 的性能提升遵循与大语言模型类似的幂律分布——当预训练数据量和计算量按对数比例增加时，机器人在世界建模和行为克隆中的误差会线性下降。

但有一个关键差异：具身智能在复杂操作任务中的缩放指数略低于纯语言模型。这意味着，获取同等程度的"智能进步"，物理 AI 需要比语言 AI 更多的数据。这解释了为什么所有头部玩家都在大规模收集物理交互数据——NVIDIA 用 Cosmos 生成合成数据，Figure AI 用工厂部署收集真实数据，Skild AI 从互联网视频中提取运动经验，小鹏从自动驾驶数据中迁移。

各家的数据获取路径各不相同，但都在构建同一种飞轮：

数据的争夺可能比算法本身更决定最终格局。

纵向整合 vs 平行渗透

把这些玩家放到一张地图上，能看到两种截然不同的策略。

西方阵营（Figure AI、Boston Dynamics、PI、1X） 倾向于纵向整合

东方阵营（小鹏、以及其他中国玩家） 更多采用平行渗透策略——利用已有的制造能力和本土市场，先在特定场景（展厅服务、工业巡检）落地，积累数据和收入，再逐步扩展到更通用的场景。小鹏把自动驾驶积累的数据和芯片直接迁移到机器人上，这种"汽车到机器人"的路径在中国正在被多家车企效仿。

NVIDIA 则扮演了一个特殊角色——它不参与具体的硬件竞争，而是通过 GR00T 模型、Cosmos 世界模型、Newton 引擎和 Jetson 芯片，为所有阵营提供基础设施。在整个竞赛中，NVIDIA 可能是确定性最高的赢家。

从实验室到客厅还有多远

具身智能几个需要跨越的门槛依然存在。安全标准方面，一台在工厂运转良好的机器人，进入有老人和小孩的家庭后面临完全不同的安全要求，目前行业还没有统一的家用机器人安全认证体系。成本方面，NEO 的预售价格在数万美元级别，距离大众消费品还有很大的降价空间。可靠性方面，实验室里成功率 95% 的任务，在真实家庭中复杂度会成倍增加。

但方向已经不可逆了。当机器人的"大脑"开始遵循 Scaling Law——数据越多越聪明、算力越大越能干——整个产业就进入了和大语言模型类似的增长轨道。区别只是，这一次 AI 不是在屏幕里写代码，而是在物理世界里搬东西。

本周的四篇文章从 Waymo 的自动驾驶仿真、Genie 3 的世界模型技术、世界模型全景，到今天的具身智能，串起了一条线：AI 正在从"理解语言"走向"理解物理"，从"内容生成"走向"动作执行"。