清华团队发现加速机器人学习秘诀

背景信息：
深学习的发展离不开数据集、模型和计算能力的扩展。在自然语言处理和计算机视觉领域，研究者发现了模型性能和数据规模之间的幂律关系。然而，在机器人学特别是机器人操控领域，类似的扩展规律尚未建立。

主要研究成果：
清华大学的研究团队发表了一篇论文，探索了机器人模仿学习中的扩展规律，并提出了一种高效的数据收集策略。他们仅用半天时间就采集到了足够的数据，使得该策略在新环境和新物体上的成功率达到了约90%。

泛化能力：
- 研究人员将泛化能力分为环境泛化和对象泛化。
- 通过手持抓取器在不同环境中与不同的对象进行人类演示数据的采集，然后使用扩散策略建模这些数据。
- 初始研究集中在两个任务上：倒水和放置鼠标。通过分析策略性能随训练环境或物体数量的变化规律，他们总结了数据扩展规律。
扩展规律：
- 策略对新对象、新环境或两者的泛化能力与其训练对象数、训练环境数或训练环境-对象对的数量之间存在幂律关系。
- 增加环境和物体的多样性比增加每个环境或物体的演示数量更有效。
数据收集策略：
- 在尽可能多的不同环境中（例如32个）采集数据，每个环境有一个独特的对象，并进行50次演示。这可以训练出一个泛化能力较强的策略（90%的成功率），使其能够适应新环境和新的物体。
- 建议为每个环境-对象对收集50次演示。

为了验证该数据采集策略的通用性，研究人员将其应用于两个新任务：折叠毛巾和拔出充电器。结果表明，该策略也能训练出高泛化的策略以处理这些新任务。

研究意义：
这项研究表明，在相对有限的时间和资源下，可以学习到一个单任务策略，并且能够零样本部署到任何环境和对象中。为了进一步支持这一领域的研究，清华大学团队发布了他们的代码、数据和模型，希望能激励更多相关领域研究并最终实现具有解决复杂开放世界问题能力的通用机器人。

链接：
论文原文：点击访问

综上所述，该研究为我们提供了宝贵的数据扩展策略及泛化能力提升的方法，值得进一步关注和应用。

近期新闻