2月12日,小米发布了开源VLA模型Xiaomi-Robotics-0。该模型拥有47亿参数,具备视觉语言理解和高性能实时执行能力,在多项仿真测试中取得了优异成绩,并在真实任务中展示了动作连贯、反应灵敏的特点,能在消费级显卡上实现实时推理。
物理智能的核心在于“感知-决策-执行”的闭环质量。为兼顾通用理解和精细控制,Xiaomi-Robotics-0采用了主流的Mixture-of-Transformers (MoT) 架构。其视觉语言大脑(VLM)负责理解人类模糊指令并从高清视觉输入中捕捉空间关系。动作执行小脑(Action Expert)则通过多层Diffusion Transformer (DiT)生成高频平滑的动作块,并利用流匹配技术确保动作精准度。
大部分VLA模型在学习动作时会失去原有的理解能力。通过多模态与动作数据混合训练,Xiaomi-Robotics-0在学会操作的同时保持了强大的物体检测、视觉问答和逻辑推理能力。VLM协同训练引入了Action Proposal机制,使VLM特征空间与动作空间对齐。随后冻结VLM,专注于训练DiT,使其能够从噪声中恢复出精准的动作序列。
针对推理延迟导致的真机“动作断层”问题,团队采用异步推理模式,让模型推理与机器人运行异步执行,确保动作连贯流畅。为进一步增强响应敏捷性和运行稳定性,引入了Clean Action Prefix和Λ-shape Attention Mask。前者将前一时刻预测的动作作为输入,保证动作轨迹连续不抖动;后者通过特殊注意力掩码,使模型更关注当前视觉反馈,提高对环境变化的反应性。
在多维度测试中,Xiaomi-Robotics-0表现出色。在LIBERO、CALVIN和SimplerEnv测试中,该模型在所有Benchmark和30种模型对比中均取得最优结果。实际应用方面,双臂机器人平台上的部署显示,无论是在积木拆解还是叠毛巾等长周期高难度任务中,机器人都能处理得游刃有余,展现出极高的手眼协调性。此外,模型还保留了VLM本身的多模态理解能力,在具身相关的Benchmark中表现尤为突出。
阿里巴巴达摩院发布了具身智能大脑基础模型RynnBrain,并一次性开源了包括30B MoE在内的7个全系列模型
2026-02-11 09:42:50机器人首次拥有时空记忆