ICRA 2026 现场：中国军团主导维也纳，新锐巨头混战具身智能深水区

“中国军团「全栈压制」，ICRA 2026进入中国时间。”

作者丨吴思梦

编辑丨岑峰

宇树科技、千寻智能、帕西尼、Sharpa、智元机器人、加速进化、高擎机电、光轮智能……在本届 ICRA 的核心工业展区，放眼望去皆是中国展商的身影。这一幕，让日本参会学者Shohei Hido在现场直接感叹：“China is dominating”——中国展商，已经成为本届ICRA最醒目的存在。

当多瑙河畔的音乐之都响起代码与算法的交响，全球机器人学界一年一度的“奥林匹克”——IEEE国际机器人与自动化会议（ICRA 2026），于6月1日在奥地利维也纳正式拉开帷幕。本届大会以“Robots for All”为主题，于6月1日至5日举行，汇聚了来自86个国家和地区的超过8000名学者与产业人士。

雷峰网已抵达第一现场，从组委会获取的最终数据显示：本届ICRA有效投稿达4947篇，最终录用1882篇，录用率为38.04%。其中，11所中国高校占Top 20的55%，清华74篇断层第一，"清北交浙"四校合计212篇。

三年间投稿量增幅超过50%，门槛不降反升。大会共设有153场Workshop，覆盖具身智能、VLA、Sim-to-Real等前沿方向，另有20项竞赛提案同台竞技。

如果说去年的关键词还是“大模型”，那么今年ICRA的核心叙事已明确转向“物理智能”——而在这场从感知到行动的范式转移中，中国企业正在以前所未有的力度改写全球机器人产业版图。

ICRA 2026：

VLA大爆发，中国力量“全栈压制”

在素有“欧洲心脏”之称的维也纳，具身智能正经历一场底层范式转移——「ICRA 2026的VLA时刻」已经从一种技术预测变成了全面铺开的现实。

雷峰网前方记者现场走访与参加各类分论坛讨论时注意到：今年围绕VLA模型展开的探讨，呈现出强烈的跨界收敛特征。在往届会议中，RL4IL（模仿学习中的强化学习）、Act to Sense（从动作到感知）和Synthetic Data（合成数据）往往散落各处、各自为战。但在今年，一根隐形的线将它们彻底串联：全行业都在试图跨越“从语义理解到物理执行”的断层。

在这场跨越物理断层的战役中，中国军团的表现已经不能仅仅用“参与”来形容，而是展现出了强大的生态压制力。

在以往机器人行业的叙事中，硅谷往往负责“定义大脑”，而中国被视生态链下游“提供躯干”的硬件代工厂。但在今年的维也纳，这种旧有格局被彻底打破：

在算法顶层，中国大模型强势冲顶。记者在现场看到，千寻智能展示了自研的具身基座模型 Spirit v1.6，现场丝滑演示“串糖葫芦”这类极度依赖动态力量控制的柔性动作。令人瞩目的是，正是这座纯正的中国 VLA 模型，在不久前的行业盲测中力压英伟达最新模型 Cosmos3 与 Physical Intelligence（PI）的 Pi0.5，霸榜全球第一，成为第一梯队中最为耀眼的中国大脑。

在硬件本体端，更是呈现出“诸神混战”的盛况。除了明星初创 Booster T2 震撼的首秀，由知名学者苏昊创立的苏度科技也选择在 ICRA 现场进行其最新机器人的惊艳首发，展台被围得水泄不通。老牌劲旅天机智能以铂金合作伙伴身份坐镇核心展区，其新一代 Gento 系列人形机器人平台直接打包了从遥操作到具身智能的全栈开发工具链；高擎动力则带着 15kg 轻量化机身的 Mini Pi plus 开源人形平台，试图用极致的性价比一举填补科研端“买得起、用得上”的生态空白。

为什么中国军团能跑出这样的加速度？因为他们不仅在拼算力，更在啃“物理法则”的硬骨头。

过去，过度依赖纯视觉和仿真的 VLA 模型一旦接触真实的物理表面，就会暴露出“阿喀琉斯之踵”——它无法精准预测摩擦力、形变和刚度。而今年被参会者挤爆的“Act to Sense（从动作到感知）”论坛给出了明确的解法：具身智能绝不能只当一个被动看图说话的“指令翻译机”，机器人必须在“动作执行（Act）”的交互瞬间，反向去捕捉并适应物理世界的微观反馈（Sense）。

伴随着百万级泛化合成数据（Synthetic Data）的大规模引入，以及扩散策略（Diffusion Policy）对虚实差异（Sim-to-Real）的有效抹平，本届 ICRA 释放出了一个极其清晰的信号：VLA 模型终于不再只是给机械臂塞进去的一个“翻译插件”，而是真正开始承担起理解三维空间几何、主导长时序规划（Long-horizon Planning）的完整中枢功能。

从铂金赞助商到全球首发，从底层模型霸榜到开源硬件普惠，中国力量正在以全链条的姿态，在维也纳的舞台上重新定义全球具身智能的竞赛规则。

人形机器人的“超级星期一”：

硅谷定方向，中国定标准

开幕同一天，至少四件标志性事件密集发生：宇树科技科创板IPO申请获上交所上市委审议通过，73天“闪电”过会；英伟达CEO黄仁勋在GTC Taipei高调官宣与宇树合作推出新一代人形机器人参考设计H2+（Isaac GR00T系统）；OpenAI CEO奥特曼发布招贤令，正式宣布OpenAI Robotics团队回归，由DALL-E灵魂人物Aditya Ramesh挂帅；中国创业公司Booster Robotics选择ICRA舞台进行T2人形机器人全球首秀。

这四件事的密集程度也绝非巧合。宇树的73天过会速度刷新了中国科技企业IPO的纪录，背后是资本市场对具身智能赛道的空前热情。英伟达H2+人形机器人参考设计的发布，"芯片+模型+机器人"三位一体的产业闭环正在形成。而OpenAI的回归则释放了最强烈的信号——当这家定义了AI时代标准的公司重新杀回机器人赛道，整个行业的估值逻辑或将被改写。

这种全球范围内的板块漂移，直接导致ICRA现场的展示不再满足于让机器人死板地在平地上走两步，而是被拉到了更加逼真的动态干扰环境中进行“抗压测试”，全身操控（Whole-Body Control, WBC）在今年迎来了工程学上的质变：人形机器人在保持高动态步态行进的同时，上肢双手还能稳定地执行动态插拔、搬运等复合任务，各家百花齐放，形成诸神黄昏般的竞速。

数据驱动下，

灵巧操作的产业化路线

软件层面的大模型数据焦虑，在ICRA 2026的工业展区找到了实质性的硬件镜像。雷峰网前方记者现场走访发现，今年的工业展台呈现出高度一致的趋向性：过去那些带有试验性质、单纯为了展示自由度的孤立机械手已经退出主舞台，取而代之的是一条“数据驱动灵巧操作”的清晰产业路线。

在展区现场，帕西尼、Sharpa等一众展商不再单卖硬件，而是集体以「灵巧手 + 高质量操控数据集 + 阵列式触觉传感」的成套方案进行对垒。这种参展组合的转变，向市场释放了极为明确的商业化量产信号：灵巧操作（Dexterous Manipulation）已经结束了“能不能抓起杯子”的纯硬件竞赛，进入了“如何在复杂工业装配线和动态家庭环境中实现泛化”的成本和生态生态博弈。

“有了硬件才能收集数据，有了好的数据才能反训模型，从simulation到real world形成闭环。”Sharpa 负责人在 ICRA 现场接受雷峰网采访时表示，与其为了展会噱头做 Demo，Sharpa 更看重在物理法则下的硬核打磨。数据采集方面，雷峰网了解到，Sharpa目前与英伟达合作，在ASAP平台做simulation preload，同时用真机+Manus数据手套采集数据，对方透露Sharpa也在自研数据采集方案。

今年，他们不仅现场升级了兼具多模态推导与手眼脑协调的发牌机器人，更亮出了打包 CraftNet大脑、全尺寸轮式整机以及 22 自由度灵巧手 SharpaWave 的 Node 整机平台。

单纯依赖视觉模型的具身方案，在物理操控中正遭遇精度惩罚。在具身智能当下的发展阶段，视觉能提供宏观的位置参考，但无法替代接触瞬间的物理反馈。在面对工厂理线、精密插拔、或者易碎品抓取等长尾长距离的干扰时，没有细腻的触觉，机器人就只是一台概率论操控下的笨拙机器。

今年的展台现场，帕西尼与YUBI等厂商展示的微型磁敏与柔性电阻抗复合触觉皮肤，已经能够提供亚毫米级的表面纹理与刚度识别。而像Nexdata这样的多模态数据服务商，则把结构化的、带有触觉标签的多视角灵巧操作数据集做成了标准的商品。这种软硬件的无缝咬合和生态重构，正在将灵巧手从学术界昂贵的“象牙塔耗材”，洗牌为能够实质性进入生产线的、可规模化交付的工业品。

“最后一毫米”——这是千觉科技CTO赵浩南在ICRA现场接受雷峰网采访时，对触觉传感器核心价值的定义。赵浩南向雷峰网指出，基于视觉的闭环反馈控制在分拣、上下料等任务中已取得成果，但在流水线的测试、插拔、组装等精细操作中存在天然局限——物体姿态不稳定，头部相机和腕部相机易受遮挡，视觉定位有上限，微小偏差就可能导致装配失败甚至零部件损坏。而触觉传感器能感知物体在手中的姿态变化，是解决“最后一毫米”问题的关键。

在数据采集端，雷峰网记者也和度量科技工作人员了解到，光学动捕系统正在成为另一条“隐形基础设施”——通过多镜头系统采集手部精细操作数据，精度远超手套设备的关节角度反算，为灵巧手训练提供高质量的轨迹数据。

从触觉感知到动捕采集，一条“光学捕捉+触觉传感+灵巧执行”的完整数据闭环正在ICRA 2026的中国展商中悄然成型。

现场 Keynote 前瞻：

国内学者精彩开讲

在这场全球技术博弈中，中国学者与海外华人军团正在用冷静且务实的研究，扮演着行业平衡器的角色。在6月2日正会正式开始后的核心议程中，有两位来自国内的机器人学界中坚力量登台发表了重磅Keynote或特邀演讲。碰巧的是，这两位大咖都曾经在雷峰网主办的GAIR大会上应邀发表过主题报告：

王贺升教授（上海交通大学）：学习导航，从场景理解到决策

作为视觉伺服（Visual Servoing）领域的全球顶尖学者，上海交通大学王贺升教授在当日的演讲备受瞩目。

当下的具身智能赛道，正深陷于“端到端大模型”的唯技术论狂热中。在试图用黑盒模型吞噬一切物理控制的喧嚣下，王贺升教授所坚持的严谨路径，为行业注入了难得的清醒。

作为大会首日上午的压轴Keynote，王教授的报告紧扣机器人导航核心技术及其在复杂动态环境中的前沿应用，层层递进地展示了一幅硬核的技术版图：从多传感器融合里程计、二维/三维光流估计，到四维动态重建、动态及语义 SLAM，再到极具挑战的可变形环境建图。

面对人体组织等“非刚体”这一业界公认的医疗/服务痛点，其团队创性地提出了可变形三维高斯地图（3DGS）与连续性约束定位方法，让机器人在复杂动态环境中的感知边界大幅拓宽。不仅如此，团队还深入探索了跨模态定位（2D图像与3D地图），并将 NeRF 的记忆机制与视觉语言模型（VLM）的推理能力融为一体，构建出下一代导航规划框架。

据了解，相关技术已在矿卡、仓储机器人、自动泊车、移动通信平台和割草机器人等场景中落地应用。

徐天添研究员（中国科学院深圳先进技术研究院）：用于精密医疗的磁控微纳机器人

如果说人形机器人是宏观世界的庞然大物，那么中国科学院深圳先进技术研究院的徐天添研究员，则在今天的演讲中将现场学者的视线带入了神秘的微观世界。

徐天添研究员的演讲将聚焦于磁控微纳机器人的自动化操控及其在生物医疗工程中的应用。微纳机器人在复杂的生物流体环境下面面临着极其严重的长尾长距离干扰，传统控制方法极难维持高稳定性。徐天添团队通过巧妙的数据驱动方法与精密磁场控制的结合，压榨出了亚微米级的自主操控精度。

同时也间接证明，具身智能与大数据的边界，不仅停留在端到端大模型和人形机器人上，物理智能在微纳医疗领域的精细延伸，同样是一条能实质性改变人类生命质量的“硬核赛道”。

雷峰网将对这两位Keynote嘉宾在ICRA上的最新演讲进行文字总结整理，更多内容敬请关注雷峰网ICRA专区：

https://www.leiphone.com/special/492/202604/69e84179d5132.html

锁定雷峰网专区，独家抢先透视

ICRA 2026的大幕已经彻底拉开。无论是VLA模型在维也纳会场引发的技术争论，灵巧手在工业展区展露出的商业化野心，还是王贺升、徐天添两位华人学者在演讲中透露出的底层技术突围，都清晰地表明：行业正在向技术的深水区正面挺进。

端到端大模型究竟是不是具身智能的终局？中国产业链优势如何与前沿学术完成无缝对接？在接下来为期五天的议程中，雷峰网前方团队将持续驻扎维也纳会场一线，为您带来第一手、不加滤镜的深度观察。

本文作者长期关注机器人&具身智能赛道，添加微信交流：szhsn610。

去哪看ICRA【演讲/论文】详解？