春晚上的宇树机器人武术表演《武 BOT》令人印象深刻。人形机器人 G1 和 H2 在快速奔跑中完成了穿插变阵和武术动作,展示了高动态、高协同的全自主集群控制技术。
北京通用人工智能研究院、宇树科技、上海交通大学和中国科技大学等机构的研究人员提出了一种名为 OmniXtreme 的新策略,使机器人能够执行各种极限动作,包括连续翻转、极限平衡以及霹雳舞。这种能力通过预训练一个基于流的生成控制策略,再进行驱动感知残差强化学习的后训练来实现。后训练对于成功迁移到真实世界至关重要。
研究人员花费了一整年时间深入研究通用跟踪和极端物理行为之间的障碍。在测试了数十台 G1 机器人后,他们找到了学习和物理执行能力方面的瓶颈。宇树科技联创和 CEO 王兴兴也是该论文的作者之一,论文的主要作者是 Yunshen Wang 和 Shaohang Zhu。
在人形机器人的运动控制领域,长期以来面临泛化壁垒的问题。当动作库的规模和多样性增加时,传统的统一强化学习策略往往会遭遇性能崩溃。OmniXtreme 框架将动作技能的学习与物理驱动的微调解耦,分为基于流的可扩展预训练和驱动感知的残差后训练两个阶段。
在第一阶段,研究团队整合了多个高质量动作数据集,并将其重定向至宇树 G1 人形机器人上。利用 PPO 算法训练了一系列专家策略,然后通过基于数据集聚合的知识蒸馏技术,将这些专家策略的行为融合到一个基于流匹配的生成式策略中。这一阶段确保了模型能够学习从纯噪声中恢复专家动作的过程。
预训练得到的流匹配策略虽然在仿真中表现出色,但在现实世界中的电机非线性特性会导致表现下降。为了实现平滑的“仿真到现实”迁移,团队冻结了预训练的基础策略,并在其之上训练了一个轻量级的 MLP 残差策略,以对抗真实的硬件约束。为了增强系统的鲁棒性,团队引入了激进的域随机化、功率安全驱动正则化和驱动感知的扭矩与速度约束。
只用了200多元零件和手工小钻头,20岁出头的王兴兴制造出第一个双足机器人时,没人能想到这个年轻人九年后会站在全球机器人竞赛的聚光灯下
2025-10-24 10:20:44王兴兴的机器人棋局有多大天眼查工商信息显示,10月23日,杭州宇树科技股份有限公司发生工商变更,企业名称变更为宇树科技股份有限公司,同时王兴兴由执行公司事务的董事变更为董事长
2025-10-24 22:13:31王兴兴变更为宇树科技董事长