2022-07-31
 
DayDreamer:一种在现实世界中快速教会机器人新行为的算法
2022年07月31日  

训练机器人在现实世界中完成任务可能是一个非常耗时的过程,这涉及到构建一个快速高效的模拟器,在其上执行多次试验,然后将在这些试验中学习到的行为转移到现实世界。然而,在许多情况下,由于环境或任务的不可预测变化,仿真中获得的性能与现实世界中获得的性能不匹配。

加州大学伯克利分校的研究人员最近开发了DayDreamer,一种可以用来训练机器人更有效地完成现实任务的工具。他们的方法在arXiv上预先发布的一篇论文中介绍,该方法基于世界的学习模型,允许机器人预测其运动和动作的结果,减少了在真实世界中进行大量试错训练的需要。

开展这项研究的研究人员之一丹尼尔·哈夫纳(Danijar Hafner)告诉TechXplore:“我们希望制造出能够在现实世界中直接持续学习的机器人,而不必创建模拟环境。”。“我们之前只学习过视频游戏的世界模型,所以看到同样的算法也能让机器人在现实世界中快速学习,真是太令人兴奋了!”

利用他们的方法,研究人员能够高效快速地教会机器人在现实世界中执行特定行为。例如,他们训练一只机器狗在一个小时内从背上滚下来,站起来并行走。

训练结束后,团队开始推动机器人,发现在10分钟内,机器人也能够承受推压或快速双脚向后滚动。该团队还在机器人手臂上测试了他们的工具,训练他们捡起物体并将其放置在特定位置,而不告诉他们物体最初的位置。

哈夫纳说:“我们看到这些机器人能够适应光照条件的变化,例如阴影在一天中随太阳移动。”。“除了在现实世界中快速、连续地学习外,相同的算法在没有任何变化的情况下在四个不同的机器人和任务中都能很好地工作。因此,我们认为世界模型和在线适应将在机器人技术的发展中发挥重要作用。”

基于强化学习的计算模型可以随着时间的推移教授机器人的行为,通过为机器人提供所需行为的奖励,例如良好的物体抓取策略或以适当的速度移动。通常,这些模型通过漫长的试错过程进行训练,使用可以加速的模拟和真实世界中的实验。

另一方面,哈夫纳和他的同事开发的算法Dreamer根据其过去的“经验”构建了一个世界模型。然后,这个世界模型可以用于教授机器人基于“想象”交互的新行为。这大大减少了在真实环境中进行试验的需要,从而大大加快了培训过程。

哈夫纳说:“直接预测未来的感官输入速度太慢,成本太高,尤其是涉及到相机图像等大输入时。”。“世界模型首先学习在每个时间步(电机角度、加速计测量值、摄像机图像等)将其感官输入编码为紧凑表示。给定表示和电机命令,然后学习在下一个时间步预测结果表示。”

Dreamer制作的世界模型允许机器人“想象”未来的表现,而不是处理原始的感官输入。这反过来允许该模型使用单个图形处理单元(GPU)并行规划数千个动作序列。这些“想象”的序列有助于快速提高机器人在特定任务中的性能。

参与该研究的另一位研究人员Alejandro Escontrela告诉TechXplore:“强化学习中潜在特征的使用已经在表征学习的背景下得到了广泛的研究;其想法是可以创建大型感官输入(摄像机图像、深度扫描)的紧凑表征,从而减少模型尺寸,或许还可以减少所需的训练时间。”。“然而,表征学习技术仍然要求机器人与真实世界或模拟器进行长时间的交互以学习任务。Dreamer相反,允许机器人通过使用其学习的表征作为准确高效的‘模拟器’从想象的交互中学习。这使机器人能够在学习世界模型中执行大量训练。”

在训练机器人的同时,Dreamer不断收集新的经验并使用它们来增强其世界模型,从而改善机器人的行为。他们的方法使研究人员能够在一小时内训练四足机器人行走并适应特定的环境刺激,而无需使用以前从未实现的模拟器。

哈夫纳说:“未来,我们设想这项技术将使用户能够在现实世界中直接教授机器人许多新技能,从而消除为每项任务设计模拟器的需要。”。“这也为制造能够适应硬件故障的机器人打开了大门,例如即使一条腿的电机坏了也能走路。”

在最初的测试中,哈夫纳、埃斯孔特拉、菲利普·吴和他们的同事还使用他们的方法训练机器人拾取物体并将其放置在特定位置。这项任务每天都由仓库和装配线上的工人完成,机器人可能很难完成,尤其是当他们预期拾取的物体的位置未知时。

哈夫纳说:“与这项任务相关的另一个困难是,在机器人真正抓到东西之前,我们无法向机器人提供中间反馈或奖励,因此,如果没有中间指导,机器人还有很多东西需要探索。”。“在10个小时的完全自主操作中,使用Dreamer训练的机器人接近了人类远程操作员的性能。这一结果表明,世界模型是仓库和装配线中自动化工作站的一种很有前景的方法。”

在实验中,研究人员成功地使用Dreamer算法训练了四个形态不同的机器人执行各种任务。使用传统的强化学习训练这些机器人通常需要大量的手动调整,在没有额外调整的情况下在任务中表现良好。

哈夫纳说:“根据我们的研究结果,我们预计更多的机器人团队将开始使用和改进Dreamer,以解决更具挑战性的机器人问题。”。“有了一个现成的强化学习算法,团队可以有更多的时间专注于构建机器人硬件,并指定他们想要用世界模型自动化的任务。”

该算法可以很容易地应用于机器人,其代码很快将是开源的。这意味着其他团队将很快能够使用它使用世界模型训练自己的机器人。

哈夫纳、埃斯孔特拉、吴和他们的同事现在想进行新的实验,给一个四足机器人配备一个摄像头,这样它不仅可以学会走路,还可以识别附近的物体。这将允许机器人处理更复杂的任务,例如避开障碍物、识别其环境中感兴趣的物体或在人类用户旁边行走。

“机器人技术的一个公开挑战是用户如何直观地为机器人指定任务,”哈夫纳补充道。“在我们的工作中,我们实现了机器人优化为Python函数的奖励信号,但最终,通过直接告诉机器人什么时候做对了或错了,从人类的喜好来教机器人会很好。这可以通过按下按钮给予奖励,甚至通过让机器人理解人类语言来实现。”

到目前为止,该团队只使用他们的算法训练机器人完成特定任务,这些任务在实验开始时就已明确定义。然而,在未来,他们还希望训练机器人探索其环境,而不需要处理明确定义的任务。

哈夫纳补充说:“一个有希望的方向是训练机器人在没有任务的情况下通过人工好奇心探索周围环境,然后更快地适应用户指定的任务。”。

漏 2022年科学X网络

免责声明: 本文仅代表作者本人观点,与中国机械网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
客服邮箱:service@cnso360.com | 客服QQ:23341571