您现在的位置是:首页 >人工智能 > 2021-04-26 16:18:43 来源:
更好的机器人视觉
物体识别是计算机视觉中研究最广泛的问题之一。但是,操纵世界物体的机器人需要做的不仅仅是识别它们; 它还需要了解他们的方向。那个杯子是正面向上还是倒置?它的手柄面向哪个方向?
为了提高机器人测量物体定位的能力,麻省理工学院电气工程和计算机科学系的研究生Jared Glover正在开发一种名为Bingham分布的统计结构。他们将于11月在智能机器人和系统国际会议上发表的一篇论文中,Glover和麻省理工学院的校友Sanja Popovic '12,即现在谷歌的MEng '13,描述了一种新的机器人视觉算法,基于Bingham分布,比最好的竞争对手在识别杂乱场景中熟悉的物体方面好15%。
然而,该算法用于在熟悉的设置中分析高质量的视觉数据。因为Bingham分布是概率推理的工具,所以它在信息不完整或不可靠的情况下承诺更大的优势。在正在进行的工作中,格洛弗正在使用宾厄姆分布来分析飞行中乒乓球的方向,作为教授机器人打乒乓球的更广泛项目的一部分。在视觉信息特别差的情况下,他的算法比最佳替代方案提供了超过50%的改进。
“对齐是机器人技术中许多问题的关键,从物体检测和跟踪到绘图,”格洛弗说。“模糊性实际上是在高度混乱的场景中获得良好对齐的核心挑战,例如在冰箱内或抽屉里。这就是为什么Bingham发行版似乎是一个有用的工具,因为它允许算法从每个模糊的本地特征中获取更多信息。“
由于Bingham发行版对他的工作至关重要,因此Glover还开发了一套软件工具,可以大大加快涉及它们的计算速度。该软件可在线免费获取,供其他研究人员使用。
在旋转
宾汉姆分布对于机器人视觉如此有用的一个原因是它提供了一种组合来自不同来源的信息的方法。通常,在确定对象的取向需要试图叠加对象在由照相机捕获可视数据的几何模型 - 在Glover的工作中,微软Kinect相机的情况下,它与有关的距离信息一起捕捉2-d的彩色图像色块。
为简单起见,假设物体是四面体,几何模型由标记四面体四个角的四个点组成。想象一下,软件已经识别出图像中的四个位置,其中颜色或深度值突然变化 - 可能是对象的角落。它是四面体吗?
然后,问题归结为采取两组点 - 模型和对象 - 并确定一个点是否可以叠加在另一个上。大多数算法,包括Glover,将首先尝试对齐点。在四面体的情况下,假设在临时对齐之后,模型中的每个点都靠近对象中的一个点,但与它不完全一致。
如果两组点实际上描述了相同的对象,则可以通过围绕右轴旋转其中一个来对齐它们。对于任何给定的点对 - 一个来自模型,一个来自对象 - 可以计算围绕特定轴旋转一个特定角度的点将与另一个点对齐的概率。问题是相同的旋转可能会使另外一对点移动得更远。
然而,Glover能够证明,任何给定点对的旋转概率都可以描述为Bingham分布,这意味着它们可以组合成单个累积的Bingham分布。这允许Glover和Popovic的算法以原则方式探索可能的旋转,快速收敛于提供点之间最佳拟合的旋转。
大伞
此外,与Bingham分布可以将每对点的概率组合成单个概率的方式相同,它还可以包含来自其他信息源的概率 - 例如对象曲面的曲率估计。当前版本的Glover和Popovic算法将点旋转概率与其他几种概率相结合。
在涉及特定杂乱场景的视觉数据的实验中 - 描绘家庭机器人将要操作的环境类型 - Glover的算法具有与最佳现有算法大致相同的误报率:大约84%的对象识别是正确的,而不是83%的比赛。但它能够确定场景中物体的百分比显着更高--73%对64%。格洛弗认为,这种差异是因为他的算法能够更好地确定物体方向。
他还认为,额外的信息来源可以进一步提高算法的性能。例如,Bingham分布还可以包含关于特定对象的统计信息 - 例如,咖啡杯可以是倒置的或正面朝上的,但很少在对角线处找到它。
实际上,正是因为宾汉分布的灵活性,格洛弗认为它是机器人研究的一个有前途的工具。“你可以把你的整个博士学位编程用于寻找桌椅,杯子和类似的东西,但实际上并没有很多通用工具,”格洛弗说。“对于更大的问题,例如估计对象与其属性之间的关系以及处理有些含糊不清的事物,我们实际上并不是我们需要的地方。直到我们能做到这一点,我才真的认为机器人将会非常有限。“
Magic Leap的计算机视觉和机器学习副总裁,OpenCV的总裁兼首席执行官Gary Bradski认为Bingham分布最终会成为标准的方法,OpenCV是负责监管最广泛使用的开源计算机视觉软件库的非营利组织。哪个机器人专家代表面向对象。“宾厄姆分布生活在一个超球面上,”布拉兹基说道 - 一个圆形或球形的高维数。“我们试图表示三维物体,球形表示自然适合三维空间。它只是对具有更多自然属性的功能进行重新编码。“
“这并不像数学看起来那么难,”布拉兹基补充道。“这是一个更好的表现形式,所以我认为一旦理解了,这将成为你在做3-D时所构建的事情之一。[格洛弗]发现了一些不为人知的东西,但一旦人们熟悉它,它就会毫无疑问。