星尘智能联合清华、MIT发布CLAP框架 机器人“看懂视频学操作”

AI视界(以下内容由AI生成,仅供参考)

  • 关键词
  • 简介
  • 重点
  • 分析
  • 猜你
    想问

深圳新闻网2026年1月21日讯(记者 王睿)近日,星尘智能与清华、港大、MIT联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能。相关研究论文已上线arXiv。

长期以来,机器人学习面临着一个令人头疼的“数据饥荒”难题:互联网上有着数以亿计的人类行为视频,但专门用于训练机器人的数据却寥寥无几。这种数据不对称现象的根源在于,收集机器人操作数据需要昂贵的硬件设备、专业的操作环境,以及大量的人工标注工作,成本高昂且效率低下。相比之下,人类行为视频数据虽然丰富,但由于视觉表征与机器人动作空间之间存在巨大的语义鸿沟,传统方法难以有效利用这些资源。

现有的潜在动作模型(Latent Action Models)试图利用视频数据,但往往会遭遇“视觉纠缠”(visual entanglement)问题——模型学到的更多是与实际操控无关的视觉噪声,而非真实的操控技能。

CLAP框架的核心创新正是解决了这一长期困扰业界的技术瓶颈。该框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,有效避免了以往潜在动作模型中普遍存在的"视觉纠缠"问题。通过对比学习,CLAP 将视频中的状态转移映射到一个量化的、物理上可执行的动作码本上。

研究团队基于两种VLA建模范式进行训练:其一是 CLAP-NTP,一种自回归模型,在指令跟随与对象泛化方面表现突出;其二是 CLAP-RF,一种基于 Rectified Flow 的策略,面向高频率、精细化的操控。

这一技术突破的实际意义体现在多个层面。首先,从数据利用效率来看,CLAP框架使得机器人能够从YouTube、抖音等平台上的海量视频中学习技能,极大扩展了可用训练数据的规模。其次,从成本效益角度分析,这种“看视频学技能”的方式显著降低了机器人技能获取的门槛。

此外,该框架还解决了机器人学习中的一个关键技术挑战——知识迁移问题。通过知识匹配(Knowledge Matching, KM)正则化策略,CLAP有效缓解了模型微调过程中的灾难性遗忘现象,确保机器人在学习新技能的同时不会丢失已掌握的能力。大量实验表明,CLAP 显著优于强基线方法,使得从人类视频中学习到的技能能够有效迁移到机器人执行中。

从产业应用前景来看,CLAP框架的长期价值不仅在于技术创新,更在于其对机器人产业化进程的推动作用。当机器人能够通过观看视频快速掌握新技能时,企业部署机器人的成本和周期将大幅降低,这有望加速机器人在服务业、制造业等领域的规模化应用。

论文标题:CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos

论文地址:https://arxiv.org/abs/2601.04061

项目地址:https://lin-shan.com/CLAP/#

记者:王睿 审核:叶梅 校对:王容 责任编辑:战旗

AI视界(以下内容由AI生成,仅供参考)

关键词

简介

重点

分析

猜你想问