ICRA 2025

机器人技术与人工智能的里程碑之年
探索 Vision-Language-Action 模型的突破性进展

年度关键数据

2,847
发表论文总数
5,200+
参会研究人员
97 万
OpenVLA 训练 episodes
21,500
A100 训练小时数

技术演进时间轴

OpenVLA 发布

7B 参数 VLA 基础模型,采用 DINOv2+SigLIP 双骨干网络和 Llama 2 7B 语言模型,在 97 万机器人操作 episodes 上训练。

VLA 基础模型

LoRA 微调优化

仅需微调 110M 参数(占总参数 1.5%),即可在消费级 GPU(RTX 4090)上实现高效适配,大幅降低研究门槛。

参数高效微调

扩散策略突破

DTP、DisDP 和 Flow Matching 等新型扩散策略在人形机器人控制中展现卓越性能,支持 20+ 自由度精确控制。

扩散策略

触觉传感器革新

Nature 2026 和 Cell Device 2026 发表突破性触觉传感技术,实现亚毫米级分辨率和毫秒级响应速度。

多模态感知

人形机器人 ARTEMIS

20 自由度人形机器人平台,实现 2.1m/s 步行速度,采用端到端 VLA 控制架构,代表通用人形机器人的重要进展。

人形机器人

最佳论文亮点

🏆 最佳论文奖:大规模路径规划

通过扩展到超大规模机器人系统,改进基于学习的路径规划方法。与先验方法进行严格对比,并在大量仿真和机器人实验中验证。

路径规划 大规模系统

🥈 VLA 模型强化学习优化

探索通过强化学习(RL)进一步提升 VLA 模型在环境交互中的性能,为大规模多模态模型微调开辟新方向。

强化学习 VLA 优化

🥉 KitchenVLA 框架

从人类教学视频生成和优化可执行机器人动作的 Vision-Language-Action 框架,实现零样本任务泛化能力。

视频理解 任务泛化

💡 多模态数据管理工具

通过鲁棒的公开数据管理工具,使大规模多模态数据更易于访问和高效利用,降低机器人学习研究门槛。

数据基础设施 开源工具

🎯 低成本触觉传感器

专为真实世界物体抓取设计的低成本、鲁棒触觉传感器,在保持高性能的同时大幅降低硬件成本。

触觉感知 成本控制

🤖 扩散变换器策略(DTP)

结合扩散模型与 Transformer 架构,在人形机器人复杂动作生成中展现卓越的时间一致性和动作流畅度。

扩散模型 动作生成

研究趋势可视化

技术架构演进

VLA 基础模型架构

视觉骨干:DINOv2 + SigLIP 双编码器
语言模型:Llama 2 7B
训练数据:97 万 episodes,跨 22 个机器人平台
计算资源:21,500 A100 小时

微调方案对比

LoRA:110M 参数,单 RTX 4090
QLoRA:量化 + LoRA,更低显存
全参数:7B 参数,需 8×A100 集群
推荐:LoRA 在性能与成本间最佳平衡