想象一下桌子上有一个咖啡杯。现在,想象一本书部分遮挡了杯子。作为人类,我们仍然知道咖啡杯是什么,尽管我们看不到它的全部。但机器人可能会感到困惑。
如果仓库里甚至我们家周围的物体距离太近或者空间杂乱,机器人就很难识别和拾取物体。这是因为机器人缺乏心理学家所说的“物体统一性”,即我们识别事物的能力,即使我们看不到所有事物。
华盛顿大学的研究人员开发了一种教授机器人这项技能的方法。这种方法简称为THOR,允许低成本机器人识别杂乱架子上的物体,包括芥末瓶、品客薯片罐头和网球。在最近发表在IEEETransactionsonRobotics上的一篇论文中,该团队证明THOR的性能优于当前最先进的模型。
机器人如何感知周围环境?
我们通过视觉、声音、嗅觉、味觉和触觉来感知周围的世界。机器人使用一种或多种类型的传感器来感知周围环境。机器人使用标准彩色相机或更复杂的立体或深度相机“看到”事物。虽然标准相机只是记录周围环境的彩色和纹理图像,但立体和深度相机也可以提供有关物体距离多远的信息,就像我们的眼睛一样。
然而,传感器本身无法让机器人“感知”周围的环境。机器人需要一个类似于人脑视觉皮层的视觉感知系统来处理图像并检测所有物体的位置,估计它们的方向,识别物体可能是什么并解析其上写的任何文本。
为什么机器人很难识别杂乱空间中的物体?
这里有两个主要挑战。首先,可能存在大量不同形状和大小的物体。这使得机器人的感知系统很难区分不同的物体类型。其次,当多个物体彼此靠近时,它们会遮挡其他物体的视野。当机器人无法看到物体的完整视图时,它们就很难识别物体。
是否有任何类型的物体在杂乱的空间中特别难以识别?
这在很大程度上取决于存在的对象。例如,如果存在多种尺寸,则识别较小的物体就具有挑战性。区分形状相似或相同的物体(例如不同种类的球或盒子)也更具挑战性。当机器人从房间的不同有利位置收集图像时,柔软或湿软的物体会改变形状,这会带来额外的挑战。
那么THOR是如何工作的以及为什么它比之前解决这个问题的尝试更好呢?
THOR确实是主要作者EktaSamani的创意,他作为华盛顿大学博士生完成了这项研究。THOR的核心是,它允许机器人模仿我们人类如何知道部分可见的物体不是损坏的或全新的物体。
THOR通过使用场景中对象的形状来创建每个对象的3D表示来实现此目的。从这里开始,它使用拓扑(研究对象不同部分之间的连接性的数学领域)将每个对象分配给“最有可能”的对象类。它通过将其3D表示与存储的表示库进行比较来实现此目的。
THOR不依赖于用杂乱房间的图像来训练机器学习模型。它只需要每个不同对象本身的图像。THOR不需要机器人配备专门且昂贵的传感器或处理器,而且它也可以与商用相机配合使用。
这意味着THOR非常容易构建,更重要的是,它很容易用于具有不同背景、照明条件、物体布置和混乱程度的全新空间。它还比现有的基于3D形状的识别方法效果更好,因为它对物体的3D表示更加详细,这有助于实时识别物体。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!