
上海人工智能实验室联培博士生 贲清炜:它能够使得单个的操作者同时对一整台人形机器人的上身和下身进行操控,提高了数据采集的效率。希望这套驾驶舱在未来能够应用于一些对人类来说很危险的场景,操作员可以在很远的地方操控人形机器人进入火场、有毒气的场地等。
在一家人形机器人企业的数据采集中心,占地2000多平方米的区域内,有100台人形机器人在做着各种各样的训练,目前企业已经对超过100万条的训练数据进行了开源。

上海智元新创技术有限公司研究院执行院长 姚卯青:我们有意地设计了多种大类的场景,包括家居的场景、零售服务的场景,还有一些工业的场景,所以多种多样场景的数据采集之后汇聚到一起,用来训练机器人的大模型。

数据是训练大模型的关键。不同于语言大模型,互联网上已经存在海量的文字数据可供使用,对于人形机器人来说,真机数据目前非常匮乏,仅仅是一个简单的“倒牛奶”动作,就需要采集近百条高质量数据。
上海智元新创技术有限公司研究院执行院长 姚卯青:去年12月底的时候,对全球开放了100万条机器人轨迹的一个公开数据集,希望通过这个数据集的发布,能够推动整个具身智能在学术界和工业应用上面的一些进展。下一步我们会持续去往成本的优化去演进,包括机器人整机的成本的优化到整个数据采集过程的效率的优化。

