原作者Jennifer Chu
正如驾驶员遵守道路规则一样,大多数行人在通道走廊或拥挤道路时都会遵循一定的社会规范:靠右侧行走,左侧超行,离停车位一定距离,步行时留意四周情况,遇到障碍物时迅速改变路线等。
然而,麻省理工学院的工程师们就设计了一种具有“社会意识导航”的自主机器人,在观察行人动作的同时跟上行人的步伐。
在麻省理工学院Stata中心的测试中,机器人类似于装了车轮的自助服务机,跟上大部分行人的步伐并且成功避免了碰撞。研究人员在IEEE智能机器人与系统会议上发表一篇关于如何设计这类机器人的论文。
史蒂文-陈是麻省理工学院毕业的研究生,并且是这个项目的主要负责人,他说:“社交意识导航是移动机器人的核心能力,它能在复杂的环境里与行人进行互动。例如,小型机器人可以在人行道上进行包装和食品交付。类似,行人搭乘个人移动设备在超市,机场和医院等大型密集空间移动。”
整个项目团队还包括研究生Michael Everett,毕业的博士后Liu Miao 和航空航天学院教授Jonathan How。
如何实现在人群中行驶
为了使机器人能够在一个高度复杂的环境中自主运行,科研人员必须解决四个主要问题:定位(知道它在哪个位置),感知(识别其周围环境),路径规划(最佳路线到达目的地)和控制(执行期望的路径)。
史蒂文和他的同事们使用标准方法来解决定位和感知问题。对于感知问题,他们为机器人配备了现成的传感器,如网络摄像头,深度传感器和高分辨率激光雷达传感器。对于定位问题,他们使用开源算法来映射出周围的环境并确定其位置。对于控制问题,他们采用了驱动无人车的标准方法。
Everett 说:“这个项目创新的方面是路径规划,一旦定位出它现在的位置,就让它按规划路径行走,那它应该走哪条最佳路径?”
这是一个棘手的问题,特别是在交通繁忙的环境中,路径往往难以预测。科研人员采用基于轨迹的方法,机器人计算几条期望轨迹后,权衡之后选择最佳路径。这些轨迹是从传感器数据中推断出来,因为人们没有明确地告诉机器人他们要去的地方。
Everett 说:“但这需要不停的计算,机器人停下来,计算下一步该做什么,机器人在做决定向右边走,但是路人已经从它边上走过(计算跟不上外部环境的变化),所以这种方法不太现实,特别是机器人高速模式下。”
“我们也使用“基于反应的”方法,其中我们简化机器人模型,使用几何或物理学快速计算避免碰撞的路径。”
“基于反应的方法存在的问题是人性的不可预测性,比如说人们很少走一条笔直的路线,有时候突然走出来或者改变方向。在这样一个不可预测的环境中,这些机器人往往会与人相撞,或者看起来像有意避开,却被人们无意撞上。”
“在现实环境中,行人可能太谨慎或激进,从而撞倒机器人,没有发现它已经融入社会公认的规则,比如机器人能给予人们足够的空间或以适宜速度向前行驶,行人可能会有意地留更多的空间来避让机器人。”
对机器人的训练
该团队找到了解决这些问题的方法,使机器人能够适应不可预测的行人行为,同时不断随着人流移动,并遵循典型的行人的社会行为规范。
他们使用强化学习——一种机器学习方法,在计算机模拟中告知机器人其他物体的速度和轨迹,训练路径规划。该团队还将社会规范纳入这个离线训练阶段,在这个阶段他们鼓励机器人靠右行走,而机器人靠左行走则会受到惩罚。
Everett说:“我们希望它能够自然地在人群中行走,而不是侵入性的,我们希望它像行人一样遵循社会规则。”
强化学习的优势在于研究人员可以离线使用这些耗费大量时间和计算能力的训练场景。一旦机器人在模拟环境中训练,研究人员可以对其进行编程,帮助机器人识别出现实世界中的类似情景时,执行模拟中确定的最佳路径。
研究人员设定每隔0.1秒机器人评估环境并调整其路径。通过这种方式,机器人可以以1.2米每秒的常规步行速度穿过走廊,而不会停下重新编程以确定路线。
“我们并没有规划整条路径 - 这样做没有意义,尤其是如果你认为外部环境不断发生变化,我们选取机器人看到的环境并选择一个速度,0.1秒后,再看一下现在的环境,选择另一个速度。这样,我们的机器人看起来更自然,并且实时预测人们在做什么。”
针对群体的控制策略
研究人员在麻省理工学院Stata大楼里的繁忙曲折的大厅测试机器人,机器人一次能够自动驾驶20分钟。它随着人流自由移动,通常保持在走廊的右侧,偶尔会从左侧超过行人,两者空隙会很大,以避免任何碰撞。
Everett说:“我们曾把它带到人们的日常生活中,去上课,买东西,表明它很容易适应外部环境。有一次,碰见了一个旅游团,它完美避开他们。”
研究人员将继续研究机器人如何在更为堵塞的环境里行驶。人群与个人有着不同的动态特征,如果你看到五个人一起走动,可能需要学习完全不同的行走特征,可能会让机器人也遵循这样的社会规则,即——不要在人群中移动,不要分散人群,把他们当作一个群体,这将是今后的研究方向之一。