您现在的位置是:首页 >财经 > 2020-12-03 09:29:22 来源:
用户友好的机器人主动奖励学习方法
近年来,研究人员一直在尝试开发使机器人学习新技能的方法。一种选择是让机器人从人类那里学习这些新技能,在不确定如何操作时提出问题,并从人类用户的反应中学习。斯坦福大学的研究团队最近开发了一种用户友好的主动奖励学习方法,可通过让人类用户回答他们的问题来训练机器人。在arXiv上预发表的一篇论文中提出的这种新方法可以训练机器人提出一些问题,这些问题对于人类用户来说很容易回答,并且不是多余或不必要的。
研究人员通过电子邮件告诉TechXplore:“我们的团队对机器人如何学习人类想要的东西很感兴趣。” “一种直观的学习方式是通过提问。例如,您宁愿谨慎驾驶还是主动驾驶自动驾驶汽车?这种自动驾驶汽车应该在人类驾驶的汽车之前还是之后合并?”
这项最新研究背后的主要假设是,理想情况下,机器人应该问一些有益的问题,以从人类用户那里获取尽可能多的信息。换句话说,机器人应该能够通过问尽可能少的问题来理解人类的需求或想要他们做什么。
但是,实际上,大多数基于问题回答的现有培训方法都没有考虑人类用户回答机器人提出的特定问题有多么容易。这通常会导致用户浪费时间来回答大量不必要的问题或无法确定地进行响应。
研究人员说:“我们发现大多数最先进的算法都显示出(几乎)无法区分的人类替代方案,从而使人们无法正确回答机器人的问题。” “以我们的示例为例,这些方法可能会问:“您是否希望以29 mph或31 mph的速度在人工驾驶的汽车前合并?”这对于机器人决定是否以人们希望时速超过30英里/小时,但这种选择太接近以至于人们无法可靠地做出响应。”
为了克服现有主动学习方法的局限性,研究人员开发了一种算法,可以选择更有效的问题向人类用户提问。该算法确定的问题最大程度地减少了机器人对人类用户偏好的不确定性(即,使信息获取最大化),同时还考虑了人类用户回答这些问题的难易程度。