您现在的位置是:首页 >人工智能 > 2021-04-26 16:40:50 来源:

机器人队或其他多代理系统能所未有的方式进行协作

导读 编写程序来控制使用不稳定的通信链路导航不确定环境的单个自主机器人是很困难的; 为多个机器人编写一个可能需要或可能不必同时工作的机器

编写程序来控制使用不稳定的通信链路导航不确定环境的单个自主机器人是很困难的; 为多个机器人编写一个可能需要或可能不必同时工作的机器人,这取决于任务,甚至更难。

因此,为“多代理系统”设计控制程序的工程师 - 无论是机器人团队还是具有不同功能的设备网络 - 通常都将自己局限于特殊情况,可以假设有关环境的可靠信息或相对简单的协作任务事先明确说明。

今年5月,在麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员将在自动代理和多代理系统国际会议上展示一种新系统,将现有控制程序拼接在一起,使多代理系统能够以更复杂的方式进行协作。系统因素存在不确定性 - 例如,通信链路将丢失的可能性,或特定算法将无意中引导机器人进入死胡同的可能性 - 并自动计划它周围。

对于小型协作任务,系统可以保证其程序组合是最佳的 - 考虑到环境的不确定性和程序本身的局限性,它将产生最佳结果。

不确定条件下多机器人分散控制的规划

视频由研究人员提供

研究人员与Jon How,Richard Cockburn Maclaurin航空航天教授和他的学生Chris Maynor一起,正在模拟仓库应用程序中测试他们的系统,其中机器人团队需要从不确定的方向检索任意对象地点,根据需要协同运输重物。模拟涉及一小组iRobot Creates,可编程机器人与Roomba真空吸尘器具有相同的底盘。

合理的怀疑

“在[多代理]系统中,一般来说,在现实世界中,他们很难有效地进行交流,”CSAIL的博士后和新论文的第一作者Christopher Amato说。“如果你有一台摄像机,摄像机就不可能不断地将所有信息传输到所有其他摄像机。同样地,机器人在网络上是不完美的,因此需要花费一些时间来向其他机器人发送消息,并且在某些情况下他们可能无法在障碍物周围进行通信。“

Amato说,代理商可能甚至没有关于其自身位置的完美信息 - 例如,它实际上是仓库的哪个过道。此外,“当你试图做出决定时,对于将如何展开存在一些不确定性,”他说。“也许你试图向某个方向移动,并且存在风或车轮滑移,或者由于数据包丢失而导致网络存在不确定性。因此,在这些真实世界的领域,所有这些沟通的噪音和对发生的事情的不确定性,很难做出决定。“

Amato与共同作者松下计算机科学与工程教授Leslie Kaelbling以及博士后同事George Konidaris共同开发的新MIT系统需要三个输入。一种是一套低级控制算法 - 麻省理工学院的研究人员将其称为“宏观行动” - 可以统一或单独地管理代理人的行为。第二个是关于这些程序在特定环境中执行的一组统计信息。第三个是评估不同结果的方案:完成任务会产生高估值,但消耗能量会产生负面估值。

学校的硬敲

Amato设想可以通过简单地让多代理系统运行一段时间来自动收集统计数据 - 无论是在现实世界中还是在模拟中。例如,在仓储应用程序中,机器人将被执行各种宏操作,系统将收集结果数据。试图从仓库中的A点移动到B点的机器人可能会在一定比例的时间内落到一条死胡同中,并且他们的通信带宽可能会在其他百分比的时间内下降; 对于从B点移动到C点的机器人,这些百分比可能会有所不同。

麻省理工学院系统采用这些输入,然后决定如何最好地组合宏动作以最大化系统的价值功能。它可能会使用所有宏观行动; 它可能只使用一小部分。它可能会以人类设计师无法想到的方式使用它们。

例如,假设每个机器人都有一小组彩色灯,如果无线链路断开,它可以用来与对方进行通信。“通常发生的事情是,程序员决定红灯意味着去这个房间并帮助某人,绿灯意味着去那个房间并帮助某人,”阿马托说。“在我们的例子中,我们可以说有三个灯,算法是否会使用它们以及每种颜色的含义。”

麻省理工学院的研究人员的工作将多智能体控制的问题定义为部分可观察的马尔可夫决策过程或POMDP。“POMDP,尤其是Dec-POMDP,它们是分散版本,对于真正的多机器人问题来说基本上是难以处理的,因为它们如此复杂且计算成本太高而无法在增加机器人数量时爆炸,”Nora Ayanian说,南加州大学计算机科学助理教授,专门研究多机器人系统。“所以他们在多机器人世界中并不是很受欢迎。”

“通常情况下,当你使用这些Dec-POMDP时,你的工作粒度非常低,”她解释道。“这篇论文的有趣之处在于它们采用了这些非常复杂的工具,并降低了分辨率。”

“这肯定会使这些POMDP成为多机器人系统的雷达,”Ayanian补充道。“它确实能够更好地应用于复杂问题。”