具身智能,简单说就是让 AI 拥有物理身体,能在真实环境中自主感知、判断和行动。上一篇聊的世界模型负责"理解物理规律",具身智能则是把这种理解装进真实的机器人硬件里。传统工业机器人只会按预设程序重复同一个动作,焊接精度能到 0.1 毫米,但你把焊件挪两厘米它就不会了。具身智能要解决的正是这个问题——让机器人能应对没见过的情况。

一台机器人走进厨房,看到台面上有打翻的咖啡、一块抹布和一个垃圾桶,没人下指令,它自己判断该先擦桌面、再扔抹布、最后检查地面。这不是靠 if-else 代码,而是从大量训练数据中习得的"物理常识"在起作用。2024 年这还是实验室演示,到 2026 年初,至少六家公司的机器人开始在真实环境中做到类似的事。

相关阅读: 具身智能-Embodied AI

像素、几何还是因果?世界模型五大路线深度拆解


从"预编程"到"物理常识"

传统工业机器人的工作方式很直接——工程师写好每一个动作的精确参数,机器人严格执行。这在汽车装配线上运转良好,但到了家庭厨房或仓库这类充满变数的环境,就完全行不通了。桌上的杯子可能在任何位置,抹布可能被揉成任何形状,地面可能是瓷砖也可能是地毯。

2025 年底到 2026 年初发布的新一代机器人模型,普遍采用了一种叫做 VLA视觉-语言-动作)的架构。简单来说,就是把"看"(摄像头输入)、"懂"(语言理解)和"做"(动作输出)整合进一个端到端的神经网络。机器人不再依赖工程师提前编好的动作序列,而是根据自己"看到"的环境和"理解"的指令,实时决定下一步怎么动。

这种架构带来了一个关键变化:涌现行为。机器人在训练中积累的经验开始泛化到从未见过的场景。比如,一台在模拟环境中学会了推门的机器人,面对一扇从未见过的、更重的门时,会自动调整力度和姿势——不是因为有人教过它推这种门,而是它从大量推门经验中提取出了"物理常识"。

相关阅读:视觉语言模型(更好、更快、更强)

智能体群像蚂蚁一样协作,智能体经济在悄然兴起

下面这张图展示了 VLA 架构的核心工作流——从感知到决策再到执行的完整链路:

以下是目前进展最值得关注的六个模型和系统。


NVIDIA Isaac GR00T N1.6:给所有机器人造一个通用底座

NVIDIA 在 2025 年 10 月发布了 Isaac GR00T N1.6,定位是人形机器人的通用基座模型。它不是一款具体的机器人产品,而是一套其他厂商可以直接拿来用的"AI 底座"。

N1.6 的核心升级是集成了 Cosmos Reason——一个专为物理 AI 设计的推理引擎。它的作用是把模糊的人类指令拆解成机器人能执行的具体步骤。你说"把桌上的东西收拾一下",Cosmos Reason 会判断桌上有什么、哪些需要扔掉、哪些需要归位,然后生成一串动作指令。

另一个重要进步是全身协调控制。之前的人形机器人在执行任务时经常"顾此失彼"——手在操作的时候身体重心不稳,或者走路的时候没法同时拿东西。N1.6 在躯干和手臂的协同上做了大量优化,使得机器人在推开沉重的门或搬运不规则物体时,能实时调整重心。

围绕 GR00T N1.6,NVIDIA 还搭建了一套完整的配套设施:

Cosmos 世界模型负责解决训练数据不够的问题。真实世界的机器人操作数据又贵又少,Cosmos 能基于物理规律自动生成合成训练数据——不是简单的视频渲染,而是包含正确物理反馈的模拟环境。Cosmos Predict 2.5 能生成长达 30 秒的多视角高清模拟视频,Cosmos Transfer 2.5 则能把 3D 仿真场景转化为光影真实的视觉数据。

Newton 物理引擎专门为高自由度人形机器人设计,支持在雪地、碎石等极端地形下的高频力学反馈模拟,确保机器人在虚拟环境中学会的步行技巧能迁移到真实世界。

Jetson T4000 芯片则解决了机载算力的问题。这款模块让人形机器人可以在本地运行复杂的 VLA 模型,而不需要时刻连着云端服务器。

NVIDIA 的策略很清楚:不自己造机器人,而是做机器人行业的"Intel Inside"。整套生态的层次关系如下:


Figure 03 与 Helix:从宝马工厂走向家庭

Figure AI 在 2025 年初结束了与 OpenAI 的合作,转而全力开发自研的 AI 平台 Helix。2025 年 10 月推出的 Figure 03,是 Helix 平台能力的集中体现。

Helix 的架构分为两层。高级规划系统负责理解自然语言指令并制定任务目标,运行频率较低;低级执行系统则以每秒 200 次的高频运作,处理精细的运动补偿和力矩控制。这种双层设计让 Figure 03 能同时处理"理解指令"和"精确操作"两件事。

硬件上,Figure 03 的视觉系统帧率大幅提升,延迟明显降低,视野也更广。但最值得关注的是手部传感器——指尖集成的触觉传感器可以检测低至 3 克的压力。这意味着什么?它可以拿起一个鸡蛋而不捏碎,可以抓住一个滑腻的洗涤剂瓶,可以安全地处理破碎的餐具。

Figure AI 在 2025 年 11 月披露了 Figure 03 在宝马斯帕坦堡工厂的部署数据。数千小时的真实工业运行数据被反馈到 Helix 模型中,用于提升稳定性和异常恢复能力。这些工厂经验正在被"迁移"到家庭场景——Figure 03 采用了柔软的纺织材料覆盖层和多密度泡沫保护,不只是为了美观,更是为了通过家庭安全标准。

Figure AI 的路线是垂直整合:从视觉感知、任务规划到电机控制,全部自研。这条路风险高,但一旦跑通,护城河也深。


Physical Intelligence π0.6:强化学习的深度进化

旧金山的 Physical Intelligence(PI)在 2025 年 11 月发布了 π0.6 和 π*0.6 模型,被认为是目前处理复杂长程任务表现突出的基座模型之一。

PI 的核心方法论叫 RECAP(通过优势条件策略的经验与修正强化学习)。传统的模仿学习有一个固有缺陷:机器人照着人的演示做,但执行过程中的微小偏差会不断累积,最终导致任务失败。RECAP 的解法是引入"教练机制"——人类远程操作员在机器人出现偏差时实时进行修正演示,模型通过强化学习来学习"如何从错误中恢复",而不只是"如何完美执行"。

这种"允许犯错、学会纠错"的训练方式带来了很实际的效果:

在咖啡制作任务中,π0.6 能在工厂环境中连续运行数小时,制作各种意式咖啡,成功率很高。在衣物折叠任务中,机器人能处理多种从未见过的衣物,即使光影、布料褶皱和初始位置完全不同,也能保持稳定输出。在巧克力包装工厂的实测中,机器人完成了大量包装箱的组装和贴标,展现了应对物理阻力和从误抓中自我修复的能力。

π0.6 基于一个 50 亿参数的视觉语言模型,加上一个专门的"动作专家"模块。它还支持异构提示——同时处理语音指令和关于执行质量的调节信息,比如"快一点但不用太精确"或"慢一点确保不洒"。


Atlas 人形机器人深度整合。这个组合把目前逻辑推理能力突出的 AI 大脑和运动能力突出的机器人身体放到了一起。

Gemini 3 采用稀疏混合专家架构,拥有超长的上下文窗口。这意味着 Atlas 可以"记住"整个工厂车间的布局或数小时的连续操作指令。但大模型的推理速度不够快,没法直接驱动机器人的实时运动。解决方案是加了一个实时动作解码器,把 Gemini 3 的高层决策翻译成 50Hz 的低层运动指令,响应延迟控制在 20 毫秒以内。

相关阅读: Gemini 3.0 深度分析报告:多模态智能体、深度研究范式与生成式交互的未来图景

这套系统带来的一个亮点是少样本学习。传统的强化学习可能需要上万小时才能训练出一个技能,而 Gemini 3 赋予 Atlas 的能力是:仅需几次演示,就能理解"清理打翻的液体并找到提示标志"这种跨领域的复杂任务。

2026 版 Atlas 不再是科研原型,而是为现代汽车(Hyundai)工厂设计的量产型号。全身支持 360 度旋转的主动关节,搭载超过 2000 TFLOPS 的本地推理算力。首批 Atlas 将在 2026 年交付给现代汽车进行联合调试,目标是到 2028 年实现每年 3 万台的产量。


小鹏 IRON:把自动驾驶的能力装进机器人

2025 年 11 月的小鹏 AI Day 上,何小鹏展示了 XPENG IRON 人形机器人。这款产品最显著的特点是:它的"大脑"直接借用了小鹏自动驾驶团队积累的软硬件能力。

IRON 采用"三脑"架构——VLT(视觉-语言-任务)负责理解高层指令,VLA(视觉-语言-动作)负责运动控制,VLM(视觉-语言模型)负责环境感知。三颗自研 Turing AI 芯片提供算力支持,远超目前大多数人形机器人的车载计算能力。训练数据量达到 1 亿段自动驾驶视频剪辑,相当于 6.5 万年的经验积累。

相关阅读:德勤2026技术趋势报告深度解读:当AI从实验室走向生产线

硬件方面,IRON 是全球首款搭载全固态电池的人形机器人。固态电池带来三个直接优势:受到撞击或穿刺也不会起火(室内使用的安全门槛)、能量密度更高意味着更轻的体重和更长的续航、支持快速充电缩短补能周期。全身拥有高达 82 个自由度,手部采用业界最小的谐波减速器,实现了接近真人手部尺寸的精细操作能力。

小鹏的策略和西方厂商不同。Figure AI 和 Boston Dynamics 瞄准的是"通用劳动"的终极目标,小鹏走的是"双线并行"——一方面把 IRON 部署在自家汽车展厅和商业中心做服务型智能体,尽早产生商业价值;另一方面与工业巨头合作,在单一任务中快速积累真实运行数据。2026 年底计划开始量产。


1X NEO 和 Skild Brain:两条不同的"通用化"路径

除了上面五个主要玩家,还有两条值得关注的路线。

1X Technologies 的 NEO 是第一款面向普通家庭的人形机器人,由 OpenAI 支持,2025 年 10 月开启预订,2026 年开始交付。NEO 的设计理念完全倾向于家庭安全——不同于其他厂商采用的刚性电机传动,NEO 使用了专利的腱驱动技术。手臂和腿部由柔性电缆驱动,全身覆盖柔性针织外壳,碰撞时有天然的缓冲。

NEO 的 AI 系统 Redwood 有一个很聪明的冷启动方案:对于 NEO 不会做的家务,主人可以预约远程操作员(戴着 VR 头显)接管机器人进行演示。操作员的每次演示都会被 Redwood 模型记录为训练数据,实现"在岗学习"——用户越用,机器人越聪明。

Skild AI 的 Skild Brain 走的是另一条路。它不绑定任何特定的硬件形态,目标是建一个能同时驱动四足机器人、双足人形、机械臂和移动底座的"通用大脑"。2026 年 1 月完成了 14 亿美元的 C 轮融资。

Skild Brain 的训练方式也很特别:跳过昂贵的真机演示,直接"观看"互联网上数亿小时的人类活动视频进行学习,将视觉信号自动转化为机器人的物理经验。部署到新环境后,它还能根据实时收集的数据持续优化运动策略——不是死板执行预设程序,而是不断适应。


一个正在被验证的 Scaling Law

2025 年 11 月,一篇关于"具身智能缩放定律"的研究引发了行业关注。研究发现,物理 AI 的性能提升遵循与大语言模型类似的幂律分布——当预训练数据量和计算量按对数比例增加时,机器人在世界建模和行为克隆中的误差会线性下降。

但有一个关键差异:具身智能在复杂操作任务中的缩放指数略低于纯语言模型。这意味着,获取同等程度的"智能进步",物理 AI 需要比语言 AI 更多的数据。这解释了为什么所有头部玩家都在大规模收集物理交互数据——NVIDIA 用 Cosmos 生成合成数据,Figure AI 用工厂部署收集真实数据,Skild AI 从互联网视频中提取运动经验,小鹏从自动驾驶数据中迁移。

各家的数据获取路径各不相同,但都在构建同一种飞轮:

数据的争夺可能比算法本身更决定最终格局。


纵向整合 vs 平行渗透

把这些玩家放到一张地图上,能看到两种截然不同的策略。

西方阵营(Figure AI、Boston Dynamics、PI、1X) 倾向于纵向整合

东方阵营(小鹏、以及其他中国玩家) 更多采用平行渗透策略——利用已有的制造能力和本土市场,先在特定场景(展厅服务、工业巡检)落地,积累数据和收入,再逐步扩展到更通用的场景。小鹏把自动驾驶积累的数据和芯片直接迁移到机器人上,这种"汽车到机器人"的路径在中国正在被多家车企效仿。

NVIDIA 则扮演了一个特殊角色——它不参与具体的硬件竞争,而是通过 GR00T 模型、Cosmos 世界模型、Newton 引擎和 Jetson 芯片,为所有阵营提供基础设施。在整个竞赛中,NVIDIA 可能是确定性最高的赢家。


从实验室到客厅还有多远

具身智能几个需要跨越的门槛依然存在。安全标准方面,一台在工厂运转良好的机器人,进入有老人和小孩的家庭后面临完全不同的安全要求,目前行业还没有统一的家用机器人安全认证体系。成本方面,NEO 的预售价格在数万美元级别,距离大众消费品还有很大的降价空间。可靠性方面,实验室里成功率 95% 的任务,在真实家庭中复杂度会成倍增加。

但方向已经不可逆了。当机器人的"大脑"开始遵循 Scaling Law——数据越多越聪明、算力越大越能干——整个产业就进入了和大语言模型类似的增长轨道。区别只是,这一次 AI 不是在屏幕里写代码,而是在物理世界里搬东西。

本周的四篇文章从 Waymo 的自动驾驶仿真、Genie 3 的世界模型技术、世界模型全景,到今天的具身智能,串起了一条线:AI 正在从"理解语言"走向"理解物理",从"内容生成"走向"动作执行"