arXiv 机器人技术论文精选 2026-01-27 展会快讯

1. 面向目标的快速鲁棒机器人故障检测与恢复通信

原文标题: Goal-oriented Communication for Fast and Robust Robotic Fault Detection and Recovery

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18765v1

自主机器人系统在智能工厂中得到广泛应用，它们在动态、不确定且涉及人类的复杂环境中运行，需要低延迟和鲁棒的故障检测与恢复（FDR）。然而，现有的FDR框架存在各种局限性，例如通信和计算存在显著延迟，以及机器人运动/轨迹生成的不可靠性，这主要是因为3C（通信-计算-控制）循环的设计没有考虑到下游的FDR目标。为了解决这个问题，我们提出了一种新的目标导向通信（GoC）框架，该框架联合设计针对快速和鲁棒机器人FDR的3C循环，目标是最大限度地减少FDR时间并最大化机器人任务（例如工件分类）的成功率。对于故障检测，我们的GoC框架创新性地定义并提取了3D场景图（3D-SG）作为语义表示，通过我们设计的表示提取器检测空间关系在3D-SG中的变化来识别故障。对于故障恢复，我们通过低秩自适应（LoRA）微调一个小型语言模型（SLM），并通过知识蒸馏增强其推理和泛化能力来生成机器人的恢复动作。我们还设计了一个轻量级的以目标为导向的数字孪生重建模块，当需要精细的机器人控制时，仅使用与任务相关的物体轮廓来精炼SLM生成的恢复动作。广泛的模拟表明，与依赖于视觉语言模型进行故障检测以及大型语言模型进行故障恢复的最先进框架相比，我们的GoC框架将FDR时间减少了高达82.6%，并将任务成功率提高了高达76%。

2. 移动机械臂的快速安全轨迹优化：基于神经配置空间距离场

原文标题: Fast and Safe Trajectory Optimization for Mobile Manipulators With Neural Configuration Space Distance Field

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18548v1

移动机械臂通过协调底盘和手臂运动，承诺实现敏捷、长周期的行为，但在杂乱、封闭的空间中进行全身轨迹优化仍然困难，这主要是因为高维非凸性和需要快速、精确的碰撞推理。配置空间距离场（CDF）使固定基座机械臂能够通过平滑的隐式距离直接在配置空间中建模碰撞。这种表示方法具有绕过非线性配置到工作空间映射的同时保留准确的全身几何形状和提供优化友好的碰撞成本的优势。然而，由于工作空间无界和底盘手臂耦合更紧密，将这种能力扩展到移动机械臂受到了阻碍。我们通过广义配置空间距离场（GCDF）将这一承诺提升到移动操作中，将CDF扩展到具有平移和旋转关节的无界工作空间中的机器人，这些机器人的底盘手臂耦合更紧密。我们证明GCDF保留了类似于欧几里得的局部距离结构，并在配置空间中准确地编码了全身几何形状，并开发了一个数据生成和训练流程，该流程产生具有准确值和梯度的连续神经GCDF，支持高效的GPU批处理查询。在此基础上，我们开发了一个以GCDF为基础的碰撞推理为中心的高性能顺序凸优化框架。该求解器通过以下方式扩展到大量隐式约束：(i)在线指定神经网络约束；(ii)具有并行批处理评估的稀疏感知活动集检测；(iii)增量约束管理以快速适应场景变化。

3. 可信赖的机器人操作评估：一个新的基准和AutoEval方法

原文标题: Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18723v1

由视觉-动作和视觉-语言-动作模型的快速进化驱动，模仿学习在机器人操作能力方面取得了显著进步。然而，评估方法落后于技术的发展，阻碍了这些行为的可信评估的建立。当前的范式依赖于二元的成功率，未能解决信任的关键维度：来源真实性（即区分真实的策略行为和人类远程操作）和执行质量（例如平滑性和安全性）。为了弥合这些差距，我们提出了一种结合Eval-Actions基准和AutoEval架构的解决方案。首先，我们构建了Eval-Actions基准以支持可信度分析。与现有数据集仅限于成功的人类演示不同，Eval-Actions将VA和VLA策略执行轨迹以及人类远程操作数据整合在一起，明确包括失败场景。该数据集围绕三个核心监督信号构建：专家评分（EG）、排名引导偏好（RG）和思维链（CoT）。在此基础上，我们提出了AutoEval架构：AutoEval利用时空聚合进行语义评估，并通过辅助的动力学校准信号来细化运动平滑性；AutoEval Plus（AutoEval-P）结合了群体相对策略优化（GRPO）范式来增强逻辑推理能力。实验表明，在EG和RG协议下，AutoEval分别实现了0.81和0.84的斯皮尔曼秩相关系数（SRCC）。关键的是，该框架具有强大的来源识别能力，能够以99.6%的准确率区分策略生成视频和远程操作视频，从而为可信机器人评估建立了一个严格的标准。我们的项目和代码可在https://term-bench.github.io/上获取。

4. 低成本、高效：使用玛特罗什卡表示学习在葡萄园中进行激光雷达位置识别

原文标题: Low Cost, High Efficiency: LiDAR Place Recognition in Vineyards with Matryoshka Representation Learning

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18714v1

在农业环境中进行定位是一项具有挑战性的任务，因为它们具有非结构化的特性，缺乏独特的地标。尽管农业环境已经在物体分类和分割的背景下进行了研究，但移动机器人在当前技术状态下的地点识别任务并不简单。在本研究中，我们提出了MinkUNeXt-VINE，这是一种轻量级的基于深度学习的方法，由于其预处理和马雅罗什卡表示学习多损失方法，在葡萄园环境中超越了最先进的方法。我们的方法优先考虑了使用低成本、稀疏激光雷达输入和较低维度的输出以实现高效率的实时场景中的性能提升。此外，我们还对各种评估案例和两个使用不同激光雷达传感器的广泛长期葡萄园数据集上的结果进行了全面的消融研究。结果表明，这种方法产生的权衡输出效率高，以及在低成本和低分辨率输入数据上的鲁棒性能。代码已公开供他人复现。

5. 一个实用的大规模语言模型基础模型

原文标题: A Pragmatic VLA Foundation Model

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18692v1

在机器人操作领域具有巨大潜力，一个能够的视觉-语言-动作（VLA）基础模型有望在确保成本效益的同时（例如，适应所需的数据和GPU时间）忠实于各种任务和平台进行泛化。为此，我们开发了LingBot-VLA，该模型使用了来自9个流行的双臂机器人配置的约20,000小时的现实世界数据。通过在3个机器人平台上进行系统评估，每个平台完成100个任务，每个任务有130个训练后阶段，我们的模型在竞争对手中表现出明显的优势，展示了其强大的性能和广泛的泛化能力。我们还构建了一个高效的代码库，在一个8-GPU的训练设置中，每个GPU每秒可以处理261个样本，与现有的VLA导向代码库相比提高了1.5~2.8倍（取决于所依赖的VLM基础模型）。上述特性确保了我们的模型非常适合实际部署。为了推进机器人学习领域的发展，我们提供了代码、基础模型和基准数据的开源访问，重点在于实现更具挑战性的任务并促进合理的评估标准。

6. 基于约束的离散时间PID增益优化，以应对执行器饱和条件下的机器人关节控制

原文标题: Constraint-Aware Discrete-Time PID Gain Optimization for Robotic Joint Control Under Actuator Saturation

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18639v1

在自主机器人中，精确调节旋转驱动是基本的，然而由于离散时间执行、执行器饱和、小延迟和测量不完美，实用的PID回路与连续时间理论存在偏差。我们提出了一种针对饱和离散时间关节控制的实现感知分析和对调工作流程。（i）使用Jury准则推导出Euler和精确零阶保持（ZOH）离散化下的PI稳定性区域；（ii）在饱和主导状态下评估离散反计算抗饱和实现；（iii）提出一种混合认证的贝叶斯优化工作流程，该流程在优化鲁棒IAE目标时对超调和饱和占空比施加软惩罚，同时筛选出分析上不稳定候选者和行为上不安全的瞬态。基线扫描（τ=1.0s，Δt=0.01s，u∈[-10,10]）量化了P/PI/PID的上升/下降趋势。在一个模拟模型家族中，该模型家族模拟了不确定性、延迟、噪声、量化以及更紧的饱和，以鲁棒性为导向的对调将中值IAE从0.843提高到了0.430，同时保持中值超调低于2%。在仅进行模拟对调的情况下，认证筛选在全面鲁棒评估之前拒绝了11.6%的随机样本增益，提高了样本效率而不需要硬件实验。

7. ExoGS: 一个用于可扩展操作数据收集的4D真实到模拟到真实框架

原文标题: ExoGS: A 4D Real-to-Sim-to-Real Framework for Scalable Manipulation Data Collection

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18629v1

真实到仿真到真实技术正在受到机器人操作领域的越来越多的关注，因为它可以在仿真环境中生成可扩展的数据，同时缩小仿真到现实的差距。然而，以前的方法主要关注环境级别的视觉真实到仿真迁移，忽略了交互的迁移，这在纯仿真中可能具有挑战性和低效性，尤其是在接触丰富的任务中。我们提出了ExoGS，这是一个无需机器人的4D真实到仿真到真实框架，它能够捕捉现实世界中的静态环境和动态交互，并将它们无缝地转移到仿真环境中。它为可扩展的操作数据收集和政策学习提供了一个新的解决方案。ExoGS采用自设计的机器人同构被动外骨骼AirExo-3来捕获与动力学一致的轨迹，精度达到毫米级，并在直接的人类演示过程中同步RGB观察。机器人、物体和环境被重建为可编辑的3D高斯喷溅资产，实现了几何一致的回放和大规模数据增强。此外，一个轻量级的掩码适配器将实例级语义注入到策略中，以增强在视觉域变化下的鲁棒性。实际世界实验表明，与基于遥操作的比较基线相比，ExoGS显著提高了数据效率和策略泛化能力。代码和硬件文件已发布在https://github.com/zaixiabalala/ExoGS上。

8. 基于注意力的神经增强卡尔曼滤波器用于四足机器人状态估计

原文标题: Attention-Based Neural-Augmented Kalman Filter for Legged Robot State Estimation

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18569v1

在这封信中，我们提出了一种基于注意力的神经增强卡尔曼滤波器（AttenNKF），用于腿部机器人的状态估计。脚滑是估计误差的主要来源：当发生滑倒时，运动学测量违反了无滑假设，并在更新步骤中引入偏差。我们的目标是估计这种由滑倒引起的误差并对其进行补偿。为此，我们通过一个使用注意力机制来推断基于脚滑严重程度的误差的神经补偿器来增强不变扩展卡尔曼滤波器（InEKF）。该补偿器在潜在空间中进行训练，旨在减少对原始输入尺度的敏感性，并鼓励结构化的基于滑倒条件的补偿，同时保留InEKF递归。实验表明，与现有的腿部机器人状态估计器相比，特别是在容易发生滑倒的情况下，性能得到了改善。

9. 语义关键点条件化用于长期船舶轨迹预测：SKETCH

原文标题: SKETCH: Semantic Key-Point Conditioning for Long-Horizon Vessel Trajectory Prediction

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18537v1

准确的长航程船舶轨迹预测仍然具有挑战性，因为复杂的航行行为和环境因素导致的不确定性复杂化。现有方法往往难以保持全局方向一致性，导致在长时间跨度外推时出现漂移或不可信的轨迹。为了解决这个问题，我们提出了一种语义关键点条件轨迹建模框架，其中通过条件于一个捕获导航意图的高级下一个关键点（NKP）来预测未来轨迹。这种公式将长航程预测分解为全局语义决策和局部运动建模，有效地将未来轨迹的支持限制在语义可行的子集。为了从历史观察中高效地估计 NKP 先验，我们采用了预训练微调策略。在真实世界 AIS 数据上的大量实验表明，所提出的方法在长期旅行时间、方向精度和细粒度轨迹预测方面始终优于最先进的方法。

10. DV-VLN: 双重验证的可靠基于LLM的视觉和语言导航

原文标题: DV-VLN: Dual Verification for Reliable LLM-Based Vision-and-Language Navigation

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18492v1

视觉语言导航（VLN）需要具有身体化的智能体根据自然语言指令在复杂的3D环境中进行导航。近年来，大型语言模型（LLMs）的进展使得基于语言的导航变得更加可解释。然而，大多数基于LLM的智能体仍然依赖于单次动作决策，其中模型必须从噪声的、文本化的多视角观察中选择一个选项。由于局部不匹配和不完美的中间推理，此类决策很容易偏离正确路径，导致错误累积和在不熟悉环境中的可靠性降低。在本文中，我们提出了DV-VLN，这是一种新的VLN框架，遵循生成-验证范式。DV-VLN首先对开源的LLaMA-2主干网络进行参数高效的领域自适应，以产生结构化的导航思维链，然后通过两个互补的通道验证候选动作：真伪验证（TFV）和掩码实体验证（MEV）。DV-VLN通过聚合多个样本中的验证成功来选择动作，为重新排序提供可解释的分数。在R2R、RxR（英文子集）和REVERIE上的实验表明，DV-VLN在直接预测和仅采样基线之上持续改进，在仅语言VLN智能体中取得了具有竞争力的性能，与几个跨模态系统相比也表现出有希望的结果。代码可在https://github.com/PlumJun/DV-VLN上获取。

11. SG-CADVLM：一种用于安全关键场景生成的基于上下文解码的视觉语言模型

原文标题: SG-CADVLM: A Context-Aware Decoding Powered Vision Language Model for Safety-Critical Scenario Generation

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18442v1

自动驾驶车辆的安全验证需要测试安全关键场景，但这些事件在现实世界驾驶中很少发生，并且由于碰撞风险而昂贵。事故报告提供了安全关键事件的真实规格，为稀缺的现实世界碰撞轨迹数据提供了重要的替代品。这使得它们成为通过模拟生成真实高风险场景的有价值来源。现有的方法面临重大局限性，因为数据驱动方法由于依赖于现有潜在分布而缺乏多样性，而对抗性方法通常产生不切实际的场景，缺乏物理保真度。大型语言模型（LLM）和视觉语言模型（VLM）的方法显示出巨大的希望。然而，它们存在上下文抑制问题，其中内部参数知识会覆盖事故规格，产生偏离实际事故特征的场景。本文提出了一种名为SG-CADVLM（用于安全关键场景生成的基于上下文感知解码的多模态输入处理视觉语言模型）的框架，该框架将上下文感知解码与多模态输入处理相结合，从事故报告和道路网络图中生成安全关键场景。该框架减轻了VLM的幻觉问题，同时实现了道路几何和车辆轨迹的同时生成。实验结果表明，与基线方法的12.5%相比，SG-CADVLM以84.4%的比率生成关键风险场景，提高了469%，同时为自动驾驶车辆测试生成了可执行的模拟。

12. TC-IDM: 为可执行零样本机器人运动奠定视频生成基础

原文标题: TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18323v1

视觉-语言-动作（VLA）范式通过利用视觉-语言模型实现了强大的机器人控制，但其对大规模、高质量机器人数据的依赖限制了其泛化能力。生成式世界模型为通用嵌入式人工智能提供了有希望的替代方案，但它们在像素级计划和物理可执行动作之间仍存在一个关键差距。为此，我们提出了工具中心逆动力学模型（TC-IDM）。通过关注由世界模型合成的工具的想象轨迹，TC-IDM建立了一个鲁棒的中间表示，它连接了视觉规划和物理控制之间的差距。TC-IDM通过分割和从生成的视频中估计3D运动轨迹来提取工具的点云轨迹。考虑到不同的工具属性，我们的架构采用解耦的动作头来将这些计划轨迹投影到6自由度末端执行器运动和相应的控制信号。这种规划和转换范式不仅支持广泛的末端执行器，而且显著提高了视角不变性。此外，它表现出强大的泛化能力，包括在长期和分布外任务中与可变形物体交互。在实际世界评估中，带有TC-IDM的世界模型实现了61.11%的平均成功率，其中简单任务的成功率为77.7%，零样本可变形物体任务的成功率为38.46%。它显著优于端到端的VLA风格基线和其他逆动力学模型。

13. Quest2ROS2：一个用于双臂VR遥操作的开源机器人操作系统（ROS 2）框架

原文标题: Quest2ROS2: A ROS 2 Framework for Bi-manual VR Teleoperation

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18289v1

Quest2ROS2 是一个开源的 ROS2 机器人双臂远程操作框架，旨在扩展机器人数据收集的规模。它扩展了 Quest2ROS，通过基于相对运动的控制克服了工作空间限制，通过计算从 VR 控制器的姿态变化到机器人运动的转换，实现了直观、姿态无关的操作。该框架集成了基本的可用性和安全功能，包括实时 RViz 可视化、简化的夹持器控制以及暂停和重置功能以实现平滑过渡。我们详细描述了一个模块化架构，该架构支持“并排”和“镜像”控制模式，以优化不同平台上的操作员体验。代码可在以下网址获取：https://github.com/Taokt/Quest2ROS2。

14. Grasp-and-Lift: 通过物理反馈优化实现的3D手-物体交互重建

原文标题: Grasp-and-Lift: Executable 3D Hand-Object Interaction Reconstruction via Physics-in-the-Loop Optimization

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18121v1

灵活的手部操作越来越多地依赖于包含精确手-物体轨迹数据的大规模运动数据集。然而，现有的资源如DexYCB和HO3D主要针对视觉对齐进行优化，但在物理模拟器中重放时，往往会产生物理上不可能的交互，包括穿透、错过接触和不稳定的抓取。我们提出了一种模拟在环的优化框架，将视觉对齐的轨迹转换为可执行的物理轨迹。我们的核心贡献是将此问题表述为一个可处理的黑盒优化问题。我们使用基于稀疏时间关键帧的低维样条表示来参数化手的运动。这使得我们可以使用强大的无梯度优化器CMA-ES，将高保真物理引擎视为黑盒目标函数。我们的方法找到的运动可以在最大化物理成功（例如，稳定的抓取和提升）的同时，最小化与原始人类演示的偏差。与MANIPTRANS最近的迁移管道相比，我们的方法在重放期间实现了更低的双手和物体姿态误差，并更准确地恢复了手-物体物理交互。我们的方法提供了一种通用的可扩展方法，将视觉演示转换为有效的物理轨迹，从而为鲁棒策略学习生成高保真数据。

15. 超越静态数据集：通过审查的合成转换实现鲁棒的离线策略优化

原文标题: Beyond Static Datasets: Robust Offline Policy Optimization via Vetted Synthetic Transitions

发布时间: 2026-01-26

论文链接: http://arxiv.org/abs/2601.18107v1

离线强化学习（ORL）在工业机器人等需要实时环境交互的安全关键领域具有巨大的潜力。ORL的一个主要障碍在于静态数据集与学习到的策略之间的分布偏移，这通常需要高度保守的策略，从而限制了潜在策略的改进。我们提出了MoReBRAC，这是一个基于模型的框架，通过不确定性感知的潜在合成来解决这个问题。MoReBRAC不是仅仅依赖于固定的数据，而是利用双循环世界模型来合成高保真度的转换，从而扩展训练流形。为了确保合成数据的可靠性，我们实施了一个集成变分自动编码器（VAE）流形检测、模型敏感性分析和蒙特卡洛（MC）辍出的分层不确定性管道。这一多层过滤过程保证了只有位于学习到的动态高置信区域内的转换被利用。我们在D4RL Gym-MuJoCo基准测试中的结果表明，性能有显著提升，尤其是在“随机”和“次优”数据环境中。我们还进一步提供了关于VAE作为几何锚点的角色见解，并讨论了从近似最优数据集中学习时遇到的分布权衡问题。

欢迎关注微信公众号:车与机之路获取更多资讯。