arXiv 机器人技术论文精选 2026-02-03 展会快讯

1. BTGenBot-2：利用小型语言模型高效生成行为树

原文标题: BTGenBot-2: Efficient Behavior Tree Generation with Small Language Models

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.01870v1

近年来，机器人学习在任务规划方面越来越依赖于基于LLM的任务规划，利用其将自然语言与可执行动作连接起来的能力。虽然先前的研究展示了出色的性能，但将这些模型广泛应用于机器人领域仍然面临挑战，原因如下：1）现有方法通常为闭源或计算密集型，忽视了在真实世界物理系统上的实际部署；2）目前还没有一个被普遍接受的、即插即用的表示方法用于机器人任务生成。针对这些挑战，我们提出了BTGenBot-2，这是一个1B参数的开源小型语言模型，它可以直接将自然语言任务描述和机器人动作原语列表转换为可执行的XML行为树。与先前的方法不同，BTGenBot-2实现了零样本BT生成、推理和运行时的错误恢复，同时足够轻量级，适用于资源受限的机器人。我们还引入了第一个基于LLM的行为树生成的标准化基准，涵盖了NVIDIA Isaac Sim中的52个导航和操作任务。广泛的评估表明，BTGenBot-2在功能和非功能指标上均优于GPT-5、Claude Opus 4.1和更大的开源模型，在零样本情况下平均成功率为90.38%，在单次样本情况下为98.07%，同时比之前的BTGenBot快16倍。

2. LangMap：一个用于开放词汇目标导航的分层基准

原文标题: LangMap: A Hierarchical Benchmark for Open-Vocabulary Goal Navigation

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02220v1

物体与语言之间的关系对于人类与AI之间有意义沟通以及实现实用的具身智能至关重要。我们引入了HieraNav，这是一个多粒度、开放词汇的目标导航任务，其中智能体解释自然语言指令以在四个语义级别（场景、房间、区域和实例）达到目标。为此，我们提出了“语言作为地图”（LangMap），这是一个基于真实世界3D室内扫描的大规模基准，包含全面的人工验证注释和跨越这些级别的任务。LangMap提供了区域标签、具有判别性的区域描述、涵盖414个物体类别的具有判别性的实例描述，以及超过18K的导航任务。每个目标都包含简洁和详细的描述，从而能够对不同指令风格进行评估。LangMap实现了优越的注释质量，在判别准确率方面优于GOAT-Bench 23.8%，同时使用了四倍少的词汇。在LangMap上对零样本和监督模型进行的全面评估表明，更丰富的上下文和记忆可以提高成功率，而长尾、小型、上下文相关和远程目标，以及多目标完成仍然具有挑战性。HieraNav和LangMap为推动语言驱动的具身导航提供了一个严格的测试平台。项目：https://bo-miao.github.io/LangMap

3. Flow Policy Gradients for Robot Control

原文标题: Flow Policy Gradients for Robot Control

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02481v1

基于似然度的策略梯度方法是目前训练机器人控制策略的主要方法。这些方法依赖于可微的动作似然度，这限制了策略输出的分布为简单的分布，如高斯分布。在本工作中，我们展示了如何将流匹配策略梯度——一种绕过似然度计算的最新框架——应用于训练和微调在具有挑战性的机器人控制场景中的更表达丰富的策略。我们引入了一个改进的目标函数，使其在腿式运动、类人运动跟踪和操作任务中取得成功，以及在两个类人机器人上的鲁棒的模拟到现实的迁移。然后，我们对训练动态进行了消融和分析。结果显示，策略如何利用流表示在从头开始训练时进行探索，以及比基线更好的微调鲁棒性。

4. 多模态大型语言模型用于实时情境推理

原文标题: Multimodal Large Language Models for Real-Time Situated Reasoning

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.01880v1

在这项工作中，我们探讨了多模态大型语言模型如何支持实时情境和价值感知的决策。为此，我们将 GPT-4o 语言模型与 TurtleBot 4 平台相结合，模拟家庭中的智能吸尘机器人。该模型通过视觉输入评估环境，并确定是否适宜启动清洁。该系统突出了这些模型在推理家庭活动、社会规范和用户偏好方面的能力，并做出符合相关人士价值观的细微决策，例如清洁、舒适和安全。我们在一个现实的家庭环境中展示了该系统，展示了其从有限的视觉输入中推断情境和价值观的能力。我们的结果突显了多模态大型语言模型在增强机器人自主性和情境意识方面的潜力，同时也强调了与一致性、偏见和实时性能相关的问题。

5. 多任务学习在机器人感知中的不平衡数据应用

原文标题: Multi-Task Learning for Robot Perception with Imbalanced Data

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.01899v1

多任务问题解决已被证明可以提高单个任务的准确性，这对于机器人来说是一个重要的特性，因为它们资源有限。然而，当每个任务的标签数量不相等，即存在不平衡数据时，由于样本数量不足，以及移动机器人在每个环境中的标记并不容易，可能会出现问题。我们提出了一种即使在某些任务缺乏真实标签的情况下也能学习任务的方法。我们还对所提出的方法进行了详细分析。一个有趣的发现与任务的相互作用有关。我们展示了一种找出哪些任务可以提高其他任务性能的方法。我们通过使用诸如深度之类的任务输出作为输入来训练教师网络来研究这一点。我们进一步提供了在少量数据上训练时的经验证据。我们在NYUDv2和Cityscapes等不同数据集上使用了语义分割和深度估计任务。

6. LIEREx：用于机器人探索的语言-图像嵌入

原文标题: LIEREx: Language-Image Embeddings for Robotic Exploration

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.01930v1

语义地图允许机器人对其周围环境进行推理，以完成诸如在已知环境中导航、寻找特定物体和探索未绘制区域等任务。传统的映射方法提供了精确的几何表示，但通常受到预先设计的符号词汇的限制。对固定对象类的依赖使得处理设计时未定义的分布外知识变得不切实际。最近在视觉-语言基础模型方面的进展，如CLIP，使得开放集映射成为可能，其中对象被编码为高维嵌入而不是固定的标签。在LIEREx中，我们将这些VLFMs与成熟的3D语义场景图相结合，以使自主代理能够在部分未知环境中进行目标导向的探索。

7. 面向双臂主动感知的探索性和专注性操作：一个新的问题、基准和策略

原文标题: Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.01939v1

最近，主动视觉作为机器人操作的重要概念重新受到关注，因为当主摄像头安装在机器人头部时，视觉遮挡现象更为频繁。我们反思了视觉遮挡问题，并认为其本质是缺乏完成任务所需的有用信息。受此启发，我们提出了更根本的问题：探索与聚焦操作（Exploratory and Focused Manipulation，简称EFM）。所提出的问题涉及主动收集信息以完成需要探索或聚焦的具有挑战性的操作任务。作为解决这个问题的初步尝试，我们建立了EFM-10基准测试，它由符合我们定义的4类任务组成（共10个任务）。在此基础上，我们提出了双臂主动感知（Bimanual Active Perception，简称BAP）策略，该策略利用一只手臂提供主动视觉和另一只手臂在操作时提供力感。基于这一想法，我们为EFM-10中的任务收集了一个名为BAPData的数据集。有了这个数据集，我们成功地以模仿学习的方式验证了BAP策略的有效性。我们希望EFM-10基准测试以及BAP策略能够成为促进未来该方向研究的基石。项目网站：EFManipulation.github.io。

8. 一种用于制造应用的基于主动远程合规中心的宏观-微观操作统一控制架构

原文标题: A Unified Control Architecture for Macro-Micro Manipulation using a Active Remote Center of Compliance for Manufacturing Applications

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.01948v1

宏观-微观操作器结合了一个宏观操作器，例如工业机器人，它具有大工作空间，与一个轻量级、高带宽的微观操作器。这使得在保持机器人广泛工作空间的同时，实现高度动态的交互控制。传统上，位置控制由宏观操作器负责，而微观操作器处理与环境的交互，限制了可实现的交互控制带宽。为了解决这个问题，我们提出了一种新颖的控制架构，该架构将宏观操作器纳入主动交互控制中。这导致控制带宽比最先进的基于领导者-跟随者方法的架构提高了2.1倍，与传统基于机器人的力控制相比提高了12.5倍。此外，我们提出了代理模型以实现更有效的控制器设计和易于适应硬件变化。我们通过比较不同实验中的其他控制方案来验证我们的方法，如与物体的碰撞、跟随力轨迹和工业装配任务。

9. 基于人工智能的多目标相对状态估计，用于基于随机不确定性的部分测量异常值拒绝

原文标题: Reformulating AI-based Multi-Object Relative State Estimation for Aleatoric Uncertainty-based Outlier Rejection of Partial Measurements

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02006v1

针对一组感兴趣的对象进行精确定位，使移动机器人能够执行各种任务。随着边缘设备的兴起，这些设备能够部署深度神经网络（DNN）进行实时推理，因此使用人工智能（AI）从原始图像数据中提取特定对象的语义信息是合理的，例如对象的类别和相对的六个自由度（6-DoF）姿态。然而，将基于AI的测量融合到扩展卡尔曼滤波器（EKF）中需要量化DNN的不确定性和异常值拒绝能力。本文提出了在基于AI的对象相对状态估计中重新表述测量方程的好处。通过推导出使用直接对象相对姿态测量的EKF，我们可以解耦位置和旋转测量，从而限制错误旋转测量的影响并允许部分测量拒绝。此外，我们还研究了用DNN的预测随机不确定性替换6-DoF对象相对姿态测量的固定测量协方差矩阵对状态估计器性能和一致性的改进。

10. 同步在线摩擦估计和自适应抓取控制以实现鲁棒轻柔抓取

原文标题: Synchronized Online Friction Estimation and Adaptive Grasp Control for Robust Gentle Grasp

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02026v1

我们提出了一种用于柔和机器人抓取的统一框架，该框架将实时摩擦估计与自适应抓取控制协同结合。我们提出了一种基于粒子滤波的新方法，用于利用视觉触觉传感器实时估计摩擦系数。该估计值无缝集成到一个反应控制器中，该控制器动态调节抓取力以保持稳定的握持。这两个过程在闭环中同步运行：控制器使用当前最佳估计值来调整力，而从这个动作中不断获得的新触觉反馈持续优化估计。这创建了一个高度响应和鲁棒的感官运动循环。通过广泛的机器人实验验证了整个框架的可靠性和效率。

11. 通过信息瓶颈和矢量量化实现带宽高效的多智能体通信

原文标题: Bandwidth-Efficient Multi-Agent Communication through Information Bottleneck and Vector Quantization

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02035v1

在现实世界的机器人应用中部署的多智能体强化学习系统面临着严重的通信约束，这显著影响了协调的有效性。我们提出了一种框架，该框架结合了信息瓶颈理论和矢量量化，以实现多智能体环境中的选择性和带宽高效的通信。我们的方法通过原则性的信息论优化来学习压缩和离散化通信消息，同时保留任务关键信息。我们引入了一种门控通信机制，该机制根据环境上下文和智能体状态动态确定何时进行通信。在具有挑战性的协调任务上的实验评估表明，与无通信基线相比，我们的方法实现了181.8%的性能提升，同时减少了41.4%的带宽使用。全面的帕累托前沿分析显示，在整个成功-带宽谱上具有优势，与次优方法的0.142相比，我们的曲线下面积为0.198。我们的方法显著优于现有的通信策略，并为在带宽受限的环境中部署多智能体系统（如机器人集群、自动驾驶车队和分布式传感器网络）提供了一个理论依据的框架。

12. 摩擦接触求解在材料点方法中的应用

原文标题: Frictional Contact Solving for Material Point Method

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02038v1

准确处理具有摩擦的接触仍然是材料点法（MPM）的核心瓶颈，从可靠的接触点检测到执行摩擦接触定律（非穿透、库仑摩擦和最大耗散原理）。在本文中，我们介绍了一种针对隐式MPM的摩擦接触管道，它既精确又稳健。在碰撞检测阶段，使用粒子中心几何原语定位接触点；在接触解决阶段，我们将摩擦接触视为一个关于接触冲量的非线性互补问题（NCP），并使用交替方向乘子法（ADMM）方案求解。关键的是，该公式重用了相同的隐式MPM线性化，从而提高了效率和数值稳定性。该方法可以无缝地集成到隐式MPM循环中，并且对建模选择无关，包括材料定律、插值函数和传递方案。我们在七个代表性的场景中对其进行了评估，这些场景涵盖了弹性响应和弹塑性响应、简单和复杂可变形几何形状以及广泛的接触条件。总的来说，所提出的方法实现了准确的接触定位、可靠的摩擦处理和广泛的通用性，使其成为机器人学和相关领域基于MPM的模拟的实际解决方案。

13. FD-VLA: 力蒸馏视觉-语言-动作模型，用于接触丰富的操作

原文标题: FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02142v1

力感知是视觉-语言-动作（VLA）框架的关键模式，因为它能够实现接触密集型任务中的精细感知和灵活操作。我们提出了力蒸馏VLA（FD-VLA），这是一种将力感知集成到接触密集型操作中，而不依赖于物理力传感器的创新框架。我们方法的核心是一个力蒸馏模块（FDM），它通过将一个可学习的查询标记映射到与实际力信号潜在表示对齐的预测力标记来蒸馏力，该查询标记基于视觉观察和机器人状态进行条件化。在推理过程中，这个蒸馏的力标记被注入到预训练的VLM中，从而在保持其视觉-语言语义完整性的同时实现具有力的推理。这种设计提供了两个关键优势：首先，它允许在广泛缺乏昂贵或易碎的扭矩传感器的机器人上实际部署，从而降低了硬件成本和复杂性；其次，FDM在VLM之前引入了额外的力-视觉-状态融合先验，这提高了跨模态对齐并增强了接触密集场景中的感知-动作鲁棒性。令人惊讶的是，我们的物理实验表明，蒸馏的力标记优于直接的传感器力测量以及其他基线，这突出了这种力蒸馏VLA方法的有效性。

14. 实时二维激光雷达目标检测基于三帧RGB扫描编码

原文标题: Real-Time 2D LiDAR Object Detection Using Three-Frame RGB Scan Encoding

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02167v1

室内服务机器人需要鲁棒的感知能力，比RGB视频更注重隐私友好，并且能够在嵌入式硬件上实现。我们提出了一种无摄像头的2D激光雷达目标检测流程，通过堆叠三个连续的扫描作为RGB通道来编码短期时间上下文，从而得到一个紧凑的YOLOv8n输入，无需构建占用网格，同时保留了角度结构和运动线索。在Webots平台上进行了评估，跨越了160个随机化的室内场景，并采用了严格的场景级保留测试，该方法在四个目标类别上实现了98.4%的mAP@0.5（0.778 mAP@0.5:0.95）的准确率以及94.9%的精确度和94.7%的召回率。在Raspberry Pi 5上运行时，它以每帧47.8毫秒的平均预热后端到端延迟运行实时处理，包括扫描编码和后处理。与在同一平台上报告的相关占用网格激光雷达-YOLO流程相比，所提出的表示方法与显著较低的报告端到端延迟相关联。尽管结果是基于模拟的，但它们表明轻量级的时间编码可以实现仅使用激光雷达而不捕获RGB外观的嵌入式室内机器人的准确和实时检测。

15. 扩展分段协调定律：对动力假肢控制的影响

原文标题: Extending the Law of Intersegmental Coordination: Implications for Powered Prosthetic Controls

发布时间: 2026-02-02

论文链接: http://arxiv.org/abs/2602.02181v1

动力假肢能够为截肢者提供净正功，在过去二十年里取得了进步。然而，降低截肢者行走时的代谢成本仍然是一个未解决的问题。分段协调定律（ISC）在多种步态中被观察到，并且以前已被牵涉到行走的能量消耗中，但它很少在下肢截肢者步态的背景下被分析和应用。该定律表明，在大腿、小腿和脚在整个步行周期中的抬升角度不是独立的。在这项工作中，我们开发了一种分析下肢3D运动学数据分段协调的方法，以简化ISC分析。此外，受到运动控制、生物力学和机器人学文献的启发，我们使用我们的方法将ISC扩展到一个新的力矩协调定律。我们发现这些抬升空间力矩（ESM），并展示了基于力矩的协调对于健全人步态的结果。我们还分析了使用动力假肢和被动假肢进行步态行走的截肢者ISC，发现虽然抬升角度保持平面，但ESM的协调性较低。我们使用ISC作为约束条件来预测小腿角度/力矩，以便补偿由于被动脚引起的改变，从而模仿健康大腿的角度/力矩轮廓。这可能对改进动力假肢控制有影响。我们开发了ISC3d工具箱，该工具箱免费在线提供，可用于计算3D中的运动学和动力学ISC。这为进一步研究协调在步态中的作用提供了手段，并可能有助于解决人类运动的神经控制的基本问题。

欢迎关注微信公众号:车与机之路获取更多资讯。