深圳新闻网2025年12月12日讯(记者 王睿)机器人能模仿走路、跳舞甚至后空翻,早已不是新鲜事,但要让它们精准完成端盘子、热食物等复杂操作,却一直是行业难题。核心原因在于,这类任务不仅需要“动手”,更需要机器人识别环境、理解任务意图,通过推理转化为连贯动作。

尽管没见过这块面包,机器人通过推理识别它,推理出加热=用微波炉,以及开门、拿起、放入、关门、旋钮、等待、取出等……无需编程,长序列全靠推理完成!

为情人节挑选一朵花来表达“我爱你”:能够理解间接指令。
近日,AI机器人公司星尘智能推出的端到端全身VLA模型Lumo-1,正攻克这一难关,实现机器人“心手合一”的操作智能。Lumo-1借助具身化VLM、跨本体联合训练、推理-动作真机训练、以及强化学习校准对齐等方式,配合绳驱机器人S1的高质量真机训练,将大模型“心智”转化为全身到手的丝滑操作。
尽管GPT、DeepSeek等AI已具备不错的推理能力,但在真实物理世界中,让AI通过推理“准确动起来”仍挑战重重。主流视觉-语言-动作VLA模型依赖“轨迹记忆”,靠海量数据学习“看到A+听到B→做C”的固定映射,在开放环境中常掉链子:懂“可乐”却不懂“补充能量的饮料”这类抽象概念,白桌训练场景换木桌就失效,微波炉加热等长时序任务更是一步错全盘输。
为解决这些问题,Lumo-1采用三阶段训练架构:先通过具身化VLM预训练,强化空间理解、规划等“具身语义”,在7个经典具身推理基准中多数超越RoboBrain-7B等专用模型;再经跨本体联合训练,强化指令跟随与空间推理能力;最后借助绳驱机器人Astribot S1的真机轨迹,开展推理-动作训练,习得双手协同、长序列操作等真实动作模式,辅以强化学习推理-行动对齐校准误差。
三大核心技术构成其“推理-动作”引擎:动作空间建模SAT将轨迹转化为可复用的“动作单词库”,减少数据噪音;结构化推理让机器人具备常识,能理解“玫瑰代表爱情”这类隐喻,精准识别关联物品;强化学习推理-行动对齐则确保推理能准确转化为执行动作。
实测中,Lumo-1在多步骤长时序、精细灵巧操作等三大类任务中全面超越π0、π0.5等先进模型,尤其在未见过的物体、场景等分布外情况(OOD)及抽象模糊指令下优势显著。团队的Scaling Law验证表明,数据多样性对泛化能力的影响远超数据重复次数,为行业指明了“重数据质量而非仅堆数量”的方向。