ICRA 2025 机器人研究年度回顾

年度关键数据

2,847

发表论文总数

5,200+

参会研究人员

97 万

OpenVLA 训练 episodes

21,500

A100 训练小时数

技术演进时间轴

OpenVLA 发布

7B 参数 VLA 基础模型，采用 DINOv2+SigLIP 双骨干网络和 Llama 2 7B 语言模型，在 97 万机器人操作 episodes 上训练。

VLA 基础模型

LoRA 微调优化

仅需微调 110M 参数（占总参数 1.5%），即可在消费级 GPU（RTX 4090）上实现高效适配，大幅降低研究门槛。

参数高效微调

扩散策略突破

DTP、DisDP 和 Flow Matching 等新型扩散策略在人形机器人控制中展现卓越性能，支持 20+ 自由度精确控制。

扩散策略

触觉传感器革新

Nature 2026 和 Cell Device 2026 发表突破性触觉传感技术，实现亚毫米级分辨率和毫秒级响应速度。

多模态感知

人形机器人 ARTEMIS

20 自由度人形机器人平台，实现 2.1m/s 步行速度，采用端到端 VLA 控制架构，代表通用人形机器人的重要进展。

人形机器人

最佳论文亮点

🏆 最佳论文奖：大规模路径规划

通过扩展到超大规模机器人系统，改进基于学习的路径规划方法。与先验方法进行严格对比，并在大量仿真和机器人实验中验证。

路径规划大规模系统

🥈 VLA 模型强化学习优化

探索通过强化学习（RL）进一步提升 VLA 模型在环境交互中的性能，为大规模多模态模型微调开辟新方向。

强化学习 VLA 优化

🥉 KitchenVLA 框架

从人类教学视频生成和优化可执行机器人动作的 Vision-Language-Action 框架，实现零样本任务泛化能力。

视频理解任务泛化

💡 多模态数据管理工具

通过鲁棒的公开数据管理工具，使大规模多模态数据更易于访问和高效利用，降低机器人学习研究门槛。

数据基础设施开源工具

🎯 低成本触觉传感器

专为真实世界物体抓取设计的低成本、鲁棒触觉传感器，在保持高性能的同时大幅降低硬件成本。

触觉感知成本控制

🤖 扩散变换器策略（DTP）

结合扩散模型与 Transformer 架构，在人形机器人复杂动作生成中展现卓越的时间一致性和动作流畅度。

扩散模型动作生成

研究趋势可视化

技术架构演进

VLA 基础模型架构

视觉骨干：DINOv2 + SigLIP 双编码器
语言模型：Llama 2 7B
训练数据：97 万 episodes，跨 22 个机器人平台
计算资源：21,500 A100 小时

微调方案对比

LoRA：110M 参数，单 RTX 4090
QLoRA：量化 + LoRA，更低显存
全参数：7B 参数，需 8×A100 集群
推荐：LoRA 在性能与成本间最佳平衡