人群中的轨迹预测:一种深度学习视角

摘要

几十年来,由于人类轨迹预测在疏散情况分析、智能交通系统部署、交通运营等众多现实世界应用中的重要性,该领域一直是活跃的研究方向。在这项工作中,我们将人类轨迹预测问题转化为学习人类社交互动的表示。早期的研究基于领域知识手工设计这种表示。然而,在拥挤环境中,社交互动不仅多样且常常微妙。近年来,深度学习方法因其以更通用的数据驱动方式学习人与人之间的交互而超越了手工设计的方法。本文对现有的基于深度学习的社交互动建模方法进行了深入分析。我们提出了两种受领域知识启发的数据驱动方法,以有效捕捉这些社交互动。
为了客观比较这些基于交互的预测模型的性能,我们构建了一个大规模的以交互为中心的基准TrajNet++,这是人类轨迹预测领域中一个至关重要但此前缺失的组成部分。我们提出了新型性能指标,用于评估模型生成社会可接受轨迹的能力。在TrajNet++上的实验验证了我们所提出指标的必要性,并且我们的方法在真实世界和合成数据集上均优于竞争性的基线方法。

索引词

行人,轨迹预测,深度学习,社交互动。

一、引言

HUMANS 具备在社交环境中导航的天然能力。换句话说,我们理解人体运动的社会礼仪,例如尊重个人空间、礼让通行权、避免穿过同一群体的行人。我们的社交互动导致了人群中的各种复杂模式形成现象,例如行进方向一致的行人车道的出现,以及在瓶颈处行人流的振荡。在现实世界环境中建模社交互动并预测人群动态的能力,对于广泛的应用具有极高价值:基础设施设计[1]–[3],交通运营[4],人群异常检测系统[5],疏散情况分析[6]–[10],智能交通系统[11]–[14]的部署,以及最近在构建我们建成环境的数字孪生这一广泛目标中的应用。然而,建模社交互动是一项极具挑战性的任务,因为并不存在一套固定的规则来支配人体运动。一项与学习人类社交互动密切相关的任务是预测周围人群的移动,这些移动遵循常见的社会规范。我们将这种预测人体运动的任务称为人类轨迹预测。

在正式定义人类轨迹预测之前,我们先介绍轨迹和场景的概念。我们将轨迹定义为行人运动状态的时间序列。通常,这些状态包括人的位置和速度。然而,我们也可以考虑更复杂的状态,例如身体姿态,以获取有关个人运动的更多信息。我们将场景定义为多个行人在社交环境中相互作用所产生的轨迹集合。一个场景还可能包含影响人类轨迹的物理对象和不可通行区域,例如墙壁、门和电梯。在必要时,我们将场景中特定的关注行人的称为主行人。我们对人类轨迹预测的定义如下:
给定场景中所有人的过去轨迹,预测符合社会规范的未来轨迹。

人类轨迹预测主要是一个序列建模任务。序列建模任务的典型挑战是:(1)编码观测序列:我们需要有效地对过去轨迹中的长期依赖关系进行建模,(2)多模态性:给定场景的历史,可能存在多种合理的未来(预测)。此外,对于人类轨迹预测而言,还存在两个关键挑战,使其区别于其他序列预测任务,如语言建模、天气预报和股票市场预测(见图1):
• 社交互动的存在:一个人的轨迹会受到其周围其他人运动的影响。对于一个优秀的人类轨迹预测模型而言,建模一个序列的观测如何影响另一个序列的预测是基本要求。
• 物理上可接受的输出:一个好的人类轨迹预测模型应提供物理上可接受的输出,例如,模型预测不应发生碰撞。量化模型预测的物理可行性对于安全关键应用至关重要。

我们的目标是将观测场景编码为一种能够捕捉预测人体运动所需所有信息的表示形式。为了专注于学习影响人体运动的社交互动,我们假设场景中不存在任何物理约束。人类的未来轨迹也可能受其长期目标的影响,而这些目标并不总是能够被观察到或推断出来。因此,我们将重点放在短期人类轨迹预测(接下来的5秒)上。

继社交LSTM[15],取得成功后,一系列基于神经网络(NN)的建模社交互动的模块被提出。在本研究中,我们明确关注这些交互模块的设计,而非整个预测模型。设计这些交互模块的挑战在于如何处理可变数量的邻居,并建模它们如何共同影响个体的未来轨迹。我们提出了一个高层级流程,涵盖了大多数现有的交互模块设计。根据我们的分类法,我们提出了两个新模块,将领域知识融入基于神经网络的流程中。因此,这些模块能够更好地学习诸如碰撞避免和领导者‐跟随者等社交礼仪。在基于神经网络的轨迹预测模型中,一个长期存在的问题是探索有助于解释模型决策的技术。在本研究中,我们提出利用逐层相关性传播(LRP)[16]来解释我们的轨迹预测模型的决策。据我们所知,这是首次在回归设置中应用LRP来推断序列间(邻居)对模型输出的影响。

为了证明轨迹预测模型的有效性,需要能够在高质量数据集上客观地与其他预测基线进行比较。然而,现有方法在可用数据的不同子集上进行了评估,且未对发生社交互动的场景进行合理采样。作为我们的最终贡献,我们提出了TrajNet++,这是一个大规模以交互为中心的轨迹预测基准,包含明确的智能体‐智能体场景。该基准通过定义轨迹分类层次结构,实现了对轨迹的合理索引。此外,我们提供了一个全面评估系统对收集到的方法进行测试以实现公平比较。在我们的评估中,我们不仅采用了标准的基于距离的指标,还引入了新的指标,用于衡量模型模拟人群中行人行为的能力。我们通过与多种交互编码器设计的对比,展示了所提出方法在TrajNet++上的有效性。此外,我们还说明了如何在现实世界场景中使用LRP解释所提出模型架构的决策过程。

总结来说,我们的主要贡献如下:

1) 我们深入分析了现有基于神经网络的交互编码器的设计及其源代码。通过将逐层相关性传播扩展到轨迹预测的回归设置中,我们解释了轨迹预测模型的决策过程。
2) 我们提出了两种由领域知识驱动的新型基于神经网络的方法,用于捕捉社交互动。
3) 我们提出了TrajNet++,这是一个大规模以交互为中心的轨迹预测基准,包含新颖的评估指标,可量化模型的物理可行性。

II. 相关工作

在拥挤环境中找到理想的表示方法来编码人类社交互动是一项极具挑战性的任务。社交互动不仅多样,而且通常十分微妙。在本研究中,我们考虑行人人群的微观模型,其中集体现象源于众多个体之间复杂的相互作用(自组织效应)。当前的人类轨迹预测研究可分为学习人与人(社交)互动、人与空间(物理)互动,或二者兼有。我们的工作重点是基于深度学习的模型,用于捕捉社交互动。在本节中,我们回顾了为建模人与人互动以获得社交表示的相关工作。

针对行人路径预测问题,赫尔宾和莫尔纳[17]提出了一种基于力的运动模型,该模型包含吸引力(朝向行人的目标方向及其所属群体)和排斥力(远离非所属群体的行人及物理障碍),被称为社会力模型,能够捕捉社会交互和物理交互。他们的开创性工作即使在现代行人数据集上也表现出较强的竞争力,并已被扩展用于提升轨迹预测性能[18]–[21]以及活动预测[22],[23]。伯斯特德等[24]采用了元胞自动机模型——另一种微观模型——来预测行人运动。在该模型中,环境被划分为均匀分布的网格,每个行人具有一个偏好矩阵,用于决定向邻近网格的转移。该偏好矩阵由行人自身的意图以及周围智能体的位置共同决定。与社会力类似,元胞自动机模型多年来也被不断扩展以改进轨迹预测[25]。另一种著名的人体运动模拟模型是互惠速度障碍(RVO)[26], ,该模型假设每个智能体均遵循互惠原则,可保证安全且无振荡的运动。

相同的碰撞避免推理。社会交互建模已从不同的建模范式进行探索,例如离散选择框架[27],、连续统动力学[28]和高斯过程[29]–[31]。Robicquet et al.[32]定义了社会敏感性,以表征人体运动的不同导航风格。Alahi et al.[33],[34]提出了社会亲和力图,用于连接断裂或未观测到的轨迹,以预测行人目的地。易森 et al.[35]利用人群分组作为线索,以更好地预测轨迹。然而,所有这些方法都使用基于相对距离和特定规则的手工设计函数来建模交互。这些函数不仅引入了强先验,而且在建模复杂交互时能力有限。近年来,基于神经网络的方法通过数据驱动方式推断交互,已被证明优于上述工作。

受循环神经网络(RNN)在多种序列预测任务[36]–[39],中的应用启发,Alahi et al.[15]提出了社交LSTM(Social LSTM),这是首个基于神经网络(NN)的人类轨迹预测模型。社交LSTM是一种长短期记忆网络(LSTM)[40],其引入了一种新颖的社交池化层,用于捕捉附近行人之间的社交互动。结合社交互动的RNN能够预测未来更长时间内可能发生的交互行为。社交池化模块已被扩展以融合物理空间上下文[41]–[47],并且已有多种基于神经网络的交互模块设计被提出[48]–[61]。Pfieffer et al.[48]提出了一种角度池化网格以实现高效计算。Shi et al.[50]提出一种沿行人运动方向放置的椭圆池化网格,更加关注前方的行人。Bisagno et al.[51]提出在社交池化过程中仅考虑不属于同一群体的行人。在建模社交互动时,Hasan et al.[59],[60]基于领域知识,仅考虑注意力视觉锥内的行人[62]。Gupta et al. [52]提出通过使用置换不变(对称)最大池化函数来编码邻域信息。Zhang et al.[53]提出利用消息传递算法来优化LSTM单元的状态。Zhu et al.[54]提出一种新颖的星型拓扑结构来建模交互关系,其中心枢纽维护整个场景的信息,每个行人均可查询该信息。Ivanovic et al.[55]和Salzmann et al. [61]提出对邻居状态进行求和池化,并将其输入到基于LSTM的编码器中以获得交互向量。Liang et al.[56]提出利用从行人之间空间距离获得的几何关系来推导交互表示。[57],[58]提出将k个最近邻居的相对位置和相对速度直接输入多层感知机(MLP)以获得交互向量。许多研究[63]–[77]提出了基于注意力机制[78],[79]的交互模块设计,用以识别影响目标行人轨迹的邻居。注意力权重可通过学习获得,或基于领域知识手工设计(e.g.,欧氏距离)。有关所有捕捉人类轨迹预测方法的全面综述

示意图0

示意图1

III. 问题陈述

我们的目标是预测场景中所有行人的未来轨迹。网络的输入是场景中所有行人的轨迹,记为X ={X1, X2,…, Xn},我们的任务是预测对应的未来轨迹Y ={Y1, Y2,…, Yn}。行人i 在时间步t 的位置和速度分别用xt i=(xt i, y t i)和vt i表示。我们获得所有行人在时间步t = 1,…, Tobs的位置,并希望预测从时间步t = Tobs+1到ˆTpred的未来位置。我们使用Y 表示我们的预测。

在时间步t,我们将行人i 的状态表示为st i。该状态可以指代人的不同属性,例如,位置与速度的拼接(s t i, v t i])。问题陈述可扩展为在每个时间步输入更多属性,例如,身体姿态,以及预测k条最可能的未来轨迹。

IV. 方法

图2展示了用于预测人体运动的全局数据驱动流程。该流程包括运动编码模块、交互模块和解码器模块。总体而言,运动编码模块负责对行人的过去运动进行编码。交互模块学习捕捉行人之间的社交互动。运动编码模块与交互模块并不一定是互斥的。交互模块的输出是场景的社会表征。该社会表征被传递给解码器模块,以根据解码器架构预测单条轨迹或轨迹分布。由于我们工作的目标是建模人类社交互动,因此我们重点研究交互模块的设计选择。

A. 交互模块

人类能够通过遵循不成文的社会规则,在复杂且拥挤的环境中轻松导航,这些规则促成了社交互动。近年来,通过设计新颖的交互模块,这些社交互动得到了有效捕捉。在本节中,我们根据现有文献中研究的不同数据驱动交互编码器的基本组成部分,对其进行广泛分类,并展示大多数设计如何归属于我们的分类体系。随后,在实验部分中,我们将进行实证分析

示意图2 占用池化:每个单元格表示是否存在邻居行人;(b) 我们提出的方向性池化:每个单元格包含邻居行人相对于主行人的相对速度;(c) 社交池化:每个单元格包含邻居行人的LSTM隐藏状态。所构建的网格张量通过一个基于MLP的神经网络以获得交互向量。)

这些组件的有效性,并为设计改进的交互模块提供建议。现有设计大致可分为(1)基于网格和(2)非基于网格。接下来我们将详细讨论这些交互编码器的不同组成部分。

1) 基于网格的交互模型

在基于网格的模型中,交互模块以围绕目标行人(主行人)构建的局部网格作为输入。网格中的每个单元表示相对于主行人的特定空间位置。基于网格的模型的设计主要根据邻居输入状态的表示方式而有所不同。

邻居输入状态 :考虑主行人周围的一个No×No网格,其中每个单元格包含位于该对应位置的邻居信息。现有设计以两种主要形式提供邻居信息:(a)占用池化[15],[44],网格中的每个单元格表示是否存在邻居(见图3a);(b)社交池化[15],[42]–[44],[46],[47],[51],每个单元格包含邻居的完整历史轨迹,例如通过邻居的LSTM隐藏状态表示(见图3c)。所得网格被展平后,通过多层感知机嵌入以获得交互向量p t i。

方向性池化 :在本研究中,基于我们的领域知识,我们提出将每个邻居在相应网格单元中的相对速度作为输入。当人类在拥挤环境中导航时,除了关注邻居的相对位置外,自然还会关注邻居的相对速度。对于相同的相对位置构型,邻居的相对速度会引出领导者‐跟随者和碰撞避免的概念即,当邻居位于前方并沿相同方向行走时,个体会表现出领导者‐跟随者行为并加速;而当邻居朝相反方向移动时,相同的相对位置构型则会导致减速。因此,获取相对速度信息可以显著减少模型预测碰撞。

此外,由于现实世界运动的复杂性以及测量噪声的可能性,当前社交池化[15]的设计有时会失败学习防止碰撞这一重要概念。其中一个原因在于,模型的训练目标是最小化位移误差[15],[67],而非减少碰撞。模型需要隐式地学习碰撞避免的概念。通过显式关注相对速度配置,我们可以获得由领域知识驱动的交互编码器设计控制能力。当模型仅显式关注相对速度配置(而非抽象的隐藏状态配置)时,这已足以学习领导者‐跟随者和碰撞避免等概念,从而得到的简单设计有望输出更安全的预测。

此外,由于输入规模减小(N × N × 2相较于N × N × Hdim,其中Hdim为隐藏状态维度),我们提出的方向性池化在实时场景中的部署计算速度更快。

有人可能会进一步提出,仅考虑主行人前方的邻居,如[62]中所建议的那样。我们将在实验部分证明,方向性池化会隐式地学习这种只关注主行人视野范围内的邻居的概念。

2) 非基于网格的交互模型

非基于网格的模块顾名思义,以无网格方式捕捉社交互动。设计非基于网格模型的挑战在于:(1) 处理可变数量的邻居,以及(2) 聚合多个邻居的状态信息以获得交互向量p i t。如图4所示,这些模块的设计选择可根据四个因素进行分类:(a) 邻居输入状态,(b) 输入状态嵌入,(c) 邻居信息聚合策略,以及(d) 聚合向量嵌入。

a) 邻居输入状态:与基于网格的方法不同,非基于网格的方法不包含邻居相对于主行人的空间位置的隐含概念。因此,文献中几乎所有现有设计都将邻居的相对空间位置作为输入。另一种流行的输入选择是邻居行人的隐藏状态[52],[67],因为隐藏状态能够编码对应行人运动历史的信息。Amirian 等[68]建模了

示意图3

人群中的轨迹预测:一种深度学习视角

IV. 方法(续)

A. 交互模块(续)

2) 非基于网格的交互模型(续)

使用以交互为中心的几何特征(如智能体之间的方位角和最近接近距离[81])来表示邻居状态。Ivanovic et al.[55]将邻居的速度作为输入。在本研究中,我们认为输入邻居的相对速度是减少模型预测中碰撞的重要因素。

b) 输入状态嵌入:邻居的输入状态通常使用多层感知机进行嵌入。然而,基于图神经网络[83]设计的近期工作[70],[82],使用LSTM对输入状态进行嵌入。主行人与其每个邻居之间的连接都通过不同的LSTM建模。与一阶的多层感知机不同,LSTM有助于捕捉邻居状态的演变过程。

c) 聚合策略:非基于网格的模型面临的最重要挑战之一是找到理想的策略来聚合所有邻居的信息。Gupta et al.[52]提出通过对获得的邻居状态嵌入应用对称最大池化函数来聚合交互信息。Ivanovic et al.[55]和Hasan et al.[59]则利用了对称求和池化函数。

大量研究工作利用注意力机制[78],[79]来确定在预测未来轨迹时不同邻居的权重。这些权重可以是手工设计的[64],也可以以数据驱动方式学习得到[66]–[68]。注意力机制可以多次应用,以建模高阶空间交互[67]。

聚合邻居信息的一个简单基线方法是拼接邻居嵌入。为了解决处理可变数量邻居的问题,我们通过基于某个定义标准(例如,欧氏距离)选择前‐k个邻居来研究拼接方案的性能。尽管该方法简单,但我们证明了拼接策略的表现可与更复杂的同类方法相媲美。

d) 聚合向量嵌入:聚合后的邻居向量通过一个多层感知机处理,Ivanovic等[55]除外,他们将求和池化后的向量传入LSTM,以获得交互向量p i t 。我们认为使用长短期记忆网络对聚合向量进行编码,具有在时间域中建模高阶交互的优势。换句话说,交互模块学习交互表示随时间的演变过程。

为简洁起见,交互模块根据其设计采用首字母缩略词表示。这些缩略词的形式为P-Q-R-S,其中P表示模块的输入,Q表示状态嵌入模块,R表示信息聚合机制,S表示聚合向量嵌入模块。表I展示了我们的分类方式如何涵盖文献中流行的基于神经网络的交互模块设计。

DirectConcat :与我们提出的D‐网格类似,我们现在描述其非网格版本DirectConcat。基于网格的模型由于其设计机制,仅隐式地考虑位于主行人周围所构建网格范围内的邻居。我们认为,对所有行人(即使距离较远的行人)的交互进行建模可能导致模型学习到虚假的相关性。因此,我们提出仅考虑距离主行人最近的前k个邻居。我们将在实验部分证明,如果将k设置为较大的值,即模型考虑场景中的所有行人时,模型在学习碰撞避免方面的能力会下降。

类似于通过对获得的方向网格进行展平来聚合,我们在DirectConcat中提出将前k个邻居的相对速度和相对位置嵌入进行直接拼接。与最大池化[52]或求和池化[55]这类混合不同嵌入的方法相比,这种方法保留了邻居的独特身份。最后,我们将聚合向量通过LSTM而非多层感知机处理。这一设计选择有助于更好地建模高阶时空交互,并对现实世界测量数据中的噪声更具鲁棒性。我们将在实验部分证明,LSTM嵌入确实有助于改善碰撞指标。根据设计,DirectConcat属于我们分类体系中的 D‐MLP‐ConC‐LSTM架构。在后续内容中,我们将交替使用术语DirectConcat和D‐MLP‐ConC‐LSTM。

示意图4

B. 预测模型

我们现在描述预测模型的其余组件。为了证明某个特定设计的交互模块更优越,必须保持预测模型的其他组件不变。只有这样,我们才能确定性能的提升确实源于交互模块的设计,而非其他额外添加的组件。我们选择 LSTM作为时间序列编码器,因为它能够处理可变的输入长度并捕捉长期依赖关系。此外,大多数研究都采用长短时记忆网络作为其基础运动编码架构。

接下来描述的其余架构与上一小节中描述的所有方法均相同。在时间步t 时,个体i 的状态st i通过单层多层感知机嵌入得到状态嵌入et i。我们使用个体的速度来表示其状态,因为将输入表示从绝对坐标转换为速度可以提升序列编码器的泛化能力。我们从交互编码器获得个体i 的交互向量p t i。随后,将交互向量与速度嵌入进行拼接,并将拼接后的向量作为序列编码模块的输入。数学上,我们得到如下递推关系:

$$
e_t^i = \varphi(v_t^i; W_{emb}), \quad (1)
$$
$$
h_t^i = \text{LSTM}(h_{t-1}^i, [e_t^i; p_t^i]; W_{encoder}), \quad (2)
$$

其中 $\varphi$ 是嵌入函数,$W_{emb}, W_{encoder}$ 是待学习的权重。这些权重在场景中的所有人之间共享。

行人i在时间步t的LSTM隐藏状态随后用于预测时间步t+ 1的速度分布。类似于Graves[84], ,我们输出一个由均值$\mu_t^i=(\mu_x,\mu_y)_t^i$、标准差 $\sigma_t^i=(\sigma_x, \sigma_y)_t^i$和相关系数 $\rho_t^i$ 参数化的双变量高斯分布:

$$
[\mu_t^i, \sigma_t^i, \rho_t^i] = \varphi_{dec}(h_{t-1}^i, W_{dec}), \quad (3)
$$

其中 $\varphi_{dec}$ 使用多层感知机建模,$W_{dec}$ 是学习得到的。

训练 :预测模型的所有参数通过最小化负对数似然(NLL)损失来学习

$$
L_i(w) = -\sum_{t=T_{obs}+1}^{T_{pred}} \log(P(v_t^i|\mu_t^i, \sigma_t^i, \rho_t^i)). \quad (4)
$$

示意图5

与通常通过最小化训练数据集中所有轨迹的NLL损失来训练模型的做法不同,我们仅最小化训练数据集每个场景中主行人的损失。我们将在实验部分展示这种训练方法如何帮助模型更好地捕捉社交互动。

测试 :在测试时,直到时间步Tobs,我们将所有行人的真实位置作为输入提供给预测模型。从时间Tobs+1到Tpred,我们使用每个行人的预测位置(由预测速度推导得出)作为预测模型的输入,并预测所有行人的未来轨迹。

1) 与图神经网络的等价性

最近,图神经网络(GNNs)在预测人类运动方面变得流行。在GNN的设置中,每个行人被表示为一个节点/顶点Vi,两个交互行人通过一条边Eij连接。Vi建模相关行人的序列表示,而边Eij根据相关行人之间的交互进行更新。我们展示了基于动态交互的GNNs与我们提出的带有S‐X‐Attn‐MLP(其中X ∈{MLP, LSTM})交互编码方案的基于LSTM的流水线之间的等价性,如图5所示。不失一般性,设行人i为主行人。顶点

Vi使用LSTM序列编码器进行建模。边Eij接收邻居的状态作为输入,并通过多层感知机或LSTM(输入状态嵌入)随着时间更新。在每个时间步,使用注意力机制(聚合策略)对所有连接边的信息进行聚合,这种机制在GNN文献中通常称为图注意力(GAT)池化[85]。最后,聚合向量可选择性地通过一个多层感知机以获得交互向量pi,该向量作为LSTM序列编码器的输入用于Vi。Social‐BiGAT[67]采用 S‐MLP‐Attn‐MLP结构,Social Attention[82]采用 O‐LSTM‐Attn‐MLP结构,而最近STAR[75]则采用 S‐MLP‐Attn‐MLP结构,并将顶点Vi的序列编码器替换为 Transformer[78]。

C. 轨迹预测模型的解释

轨迹预测模型被广泛应用于自主系统等安全关键领域。在这些场景中,深入了解“黑箱”神经网络决策过程变得尤为重要。现有文献中的多项研究试图解释神经网络决策背后的原理[16],[86]–[89]。其中,逐层相关性传播 (LRP)是可解释机器学习中最突出的方法之一。

LRP通过启发式规则将模型输出决策反向传播回每个输入变量,以指示每个输入对输出的贡献程度,这些规则适用于神经网络的每一层[16]。这些传播规则基于局部守恒原则:任何高层神经元接收到的净数量或相关性将以相同量重新分配给下一层神经元。数学上,如果j和k是两个连续层中神经元的索引,并用Rjk表示两个神经元之间流动的相关性,则我们有方程:

$$
\sum_j R_{j\leftarrow k} = R_k \quad (5)
$$
$$
R_j = \sum_k R_{j\leftarrow k} \quad (6)
$$

在所有层上应用局部守恒原则后,当反向传播回输入时,我们获得了输出分数的全局守恒。最近,Arras et al.[90]已证明LRP的原则也可应用于长短期记忆网络。

LRP主要被应用于模型分类领域i.e.,其输出为分类得分。在此研究中,我们利用LRP来确定模型在回归主行人的下一个预测速度时,重点关注哪些邻居(通过输入交互向量)以及主行人的历史速度(通过输入速度嵌入)。我们通过对预测速度的x分量vx和y分量vy (vpred=(vx, vy))进行反向传播,并将获得的输入相关性得分相加,从而实现这一目标。据我们所知,我们是首个实证证明LRP在扩展到轨迹预测的回归任务时能够提供合理解释的研究工作。此外,LRP技术是通用的,可应用于任何轨迹预测网络之上,以分析其预测结果。

V. TrajNet++:一个轨迹预测基准

在本节中,我们提出TrajNet++,一种以交互为中心的人类轨迹预测基准。为了验证轨迹预测模型的有效性,标准做法是在标准基准上将这些模型与基线进行比较。然而,现有方法在可用数据的不同子集上进行了评估,且未对发生社交互动的场景进行合理采样。换句话说,如果基准主要包含智能体处于静态或线性移动的场景,则数据驱动方法无法学习建模智能体间交互。因此,我们的基准主要包含发生社交互动的场景。为此,我们提出了以下轨迹分类层级。

A. 轨迹分类

我们提供了详细的轨迹分类(图8)。这种详细分类不仅有助于我们更好地为TrajNet++数据集采样轨迹,还能在多样化场景中获取洞察,i.e.,验证模型是否捕捉到了所有不同类型的交互。

我们根据每个场景中对应的感兴趣行人,即主行人,对场景进行分类。接下来详细说明我们提出的轨迹分类层级结构,并在图6中提供了相应的示例场景。

1) 静态(I型) :如果场景中主行人的欧氏位移小于特定阈值。
2) 线性(II型) :如果主行人的轨迹可以通过一个

示意图6

扩展卡尔曼滤波器(EKF)。如果真实轨迹与预测轨迹之间的最终位移误差小于特定阈值,则称该轨迹被 EKF正确预测。

其余场景被归类为“非线性”。我们将非线性场景进一步划分为交互型(III型)和非交互型(IV型)。

3) 交互型(III型) :这些对应于主行人发生社交互动的场景。为了与常见的社交互动保持一致的详细分类,我们将交互型轨迹划分为以下子类别(见图7)。

(a) 领导者‐跟随者 LF :领导者‐跟随者现象指的是行人倾向于跟随大致相同方向行走的其他行人。跟随者会根据领导者调节自身速度和行进方向。如果主行人是跟随者,则将该场景归类为领导者‐跟随者。
(b) 碰撞避免 CA :碰撞避免现象指的是行人倾向于避开迎面而来的其他行人。如果主行人参与了碰撞避免行为,则将该场景归类为碰撞避免。
(c) 群体(IIIc型) :如果主行人在整个场景中始终与至少一位侧方邻居保持较近且大致恒定的距离,则认为其属于一个群体。
(d) 其他交互(IIId型) :这些场景中,主行人经历了除LF、CA和群体之外的其他社交互动。我们对社交互动定义如下:观察主行人前方的角度区域,若在预测过程中的任意时间点,有邻近行人在该定义的角度区域内出现,则该场景被归类为存在社交互动。

4) 非交互型(IV型) :如果主行人的轨迹为非线性,并且在预测过程中未发生任何社交互动,则该场景被归类为非交互型。

根据我们定义的轨迹分类,我们通过采样主要对应 III型场景的轨迹构建了TrajNet++基准。此外,数据集中包含大量I型场景可能会阻碍模型的训练,并导致评估结果产生误导。因此,我们在构建基准时去除了此类样本。

示意图7

示意图8

分类阈值的详细信息以及构成我们TrajNet++基准的数据集在补充材料中提供。图9展示了我们在现实世界中进行分类的一些示例。除了一个采样充分的数据集外,TrajNet++还提供了一个全面评估系统,以更好地理解模型性能。

B. 评估指标

1) 单模态评估 :单模态评估指的是对给定过去观测提出单一未来模式的模型进行评估。在单模态设置下,人类轨迹预测最常用的指标是平均位移误差(ADE)和最终位移误差(FDE),定义如下:

1) 平均位移误差(ADE) :在所有预测时间步上,真实值与模型预测之间的平均L2距离。
2) 最终位移误差(FDE) :预测的最终目的地与预测期结束时的真实值最终目的地之间的L2距离Tpred。

这些指标本质上定义了预测轨迹与真实值轨迹之间的不同距离度量。针对我们的任务,在拥挤环境中人类行为最重要的方面之一是碰撞避免。为了确保模型预测出无碰撞的轨迹,我们在框架中提出了两种新的基于碰撞的指标(见图10):

示意图9

示意图10

3) 碰撞I ‐ 预测碰撞(Col‐I) :该指标计算主行人与邻近行人在预测的未来场景中发生碰撞的百分比。该指标用于判断预测的模型轨迹是否相撞,即模型是否学习到了碰撞避免的概念。
4) 碰撞II ‐ 真实碰撞(Col‐II) :该指标计算主行人预测轨迹与其邻居在真实未来场景中发生碰撞的百分比。

我们想进一步强调碰撞指标在单模态设置中的重要性。如前所述,人类运动是多模态的。一个模型可能预测出一种物理上可行但与实际真实值不同的未来轨迹。这种物理上可行的预测可能导致较大的ADE/FDE,从而产生误导。我们的Col‐I指标有助于克服ADE/FDE指标的这一局限性,并提供了一种衡量预测物理可行性(在此情况下为避免碰撞)的方法。Col‐II指标则表明模型是否理解了邻居的意图,并预测出与真实值中与邻居发生更少碰撞所指示的期望轨迹模式。我们认为,我们提出的碰撞度量是在捕捉模型对人群中人类社交礼仪理解方面迈出的重要一步。

2) 多模态评估 :对于执行多模态预测的模型,i.e.,输出未来轨迹分布,我们提供了以下指标来衡量它们的性能:

5) Top-k ADE :给定一个观测场景的k个输出预测,该指标计算与真实轨迹最接近的主要预测的ADE,这在本质上类似于[52]中提出的多样性损失。
6) Top-k FDE :给定一个观测场景的k个输出预测,该指标计算与真实轨迹最接近的主要预测的FDE,这在本质上类似于[52]中提出的多样性损失。

对于Top‐k指标,我们建议k取较小值(例如3而非20),因为无论输入观测如何,模型若输出均匀分布的预测,则可能导致Top‐20 ADE/FDE显著降低。

7) 平均NLL :该指标由Boris et. al.[55]提出。在每个时间步,作者获得预测分布的核密度估计(KDE)[91]。基于这些估计,计算每个时间步上真实轨迹的对数似然,并在预测时域上进行平均。该指标能够很好地反映真实轨迹在模型预测分布中的概率。

六、实验

在本节中,我们在TrajNet++ 合成数据集和真实世界数据集上进行了广泛的实验,以理解各种交互模块设计在人类轨迹预测中的有效性。此外,我们展示了所提出的指标如何帮助全面评估模型性能。

A. 实现细节

每个行人的速度被嵌入到一个64维向量中。交互向量的维度为256。目标方向向量的维度为64。对于基于网格的交互编码,我们构建一个大小为 16 × 16、分辨率为 0.6米的网格。编码器LSTM和解码器LSTM的隐藏状态维度均为128。如前所述,每个行人拥有独立的编码器和解码器。批量大小固定为8。我们使用ADAM优化器[92]进行训练,学习率为1e‐3。我们在每个时间步都执行交互编码。对于基于拼接的模型,除非另有说明,我们根据欧氏距离考虑最近的4个邻居。

数据增强是另一种有助于提高准确性的技术,但其效果可能被错误地归因于交互编码器。我们使用旋转增强作为一种数据增强技术来正则化所有模型。

交互模型:合成实验

我们利用合成数据集在受控设置中验证各种交互模块的有效性。对于合成数据集,由于ORCA(我们的底层模拟器)[26]能够获取每个行人的目标,我们将目标方向嵌入并与速度嵌入(在公式1中)进行拼接。

表II量化了文献中在TrajNet++合成数据集上发布的不同交互模块设计的模型性能。值得注意的是,我们提出的Col‐I指标为模型性能提供了更完整的评估视角。如果仅观察基于距离的指标,人们可能会错误地认为这些方法的性能相似,但这些指标并未反映出模型学习社交礼仪(在此情况下指碰撞避免)的能力。在安全至关重要的场景中,相较于最小化ADE/FDE,模型避免碰撞的能力更为重要。

1) 基于网格的模型 :我们提出的D‐网格优于O‐Grid,尤其是在Col‐I方面,即D‐网格在学习避免碰撞方面表现更佳。值得注意的是,尽管运动编码器(LSTM)有能力随时间推断邻居的相对速度,但当我们显式地将邻居的相对速度作为输入提供时,性能上仍存在显著差异。此外,由于ORCA是一种仅依赖于邻居相对构型的一阶轨迹模拟器,因此可以解释在受控设置中,D‐网格的性能与S‐Grid相当。

2) 聚合策略 :我们关注非基于网格的编码器的信息聚合策略。显然,基线D‐MLP‐Conc‐MLP通过拼接邻域信息的表现优于复杂的基于注意力的D‐MLP‐Attn‐MLP和基于最大池化的 D‐MLP‐MaxP‐MLP方法。这一性能优势可归因于拼接方案的简洁性及其保留周围邻居身份特性的能力。最大池化策略会混合不同邻居的嵌入,导致高碰撞损失。

3) 基于LSTM的交互模型 :在非网格化的基于 LSTM的设计中,D‐MLP‐SumPool‐LSTM模块[55]性能下降的原因在于:(1) 求和池化导致邻居个体身份信息丢失;(2) 使用邻居绝对坐标而非相对坐标进行编码:智能体相对于目标智能体的关系坐标比其精确坐标更容易训练。我们注意到,使用LSTM[O‐LSTM‐Att‐MLP、 D‐MLP‐ConC‐LSTM],来编码交互信息,相比基于 MLP的对应方法性能更优。由于MLP编码器具有非循环特性,无法获取上一时刻的交互表示信息。我们认为,长短期记忆网络能够捕捉交互的演化过程,从而在场景演化过程中提供更优的邻域表示。

C. 交互模型:真实世界实验

现在,我们讨论预测模型在TrajNet++真实世界数据上的表现。借助我们定义的轨迹分类方法,我们通过采样主要对应III型interacting类别的轨迹,构建了TrajNet++真实世界基准。在受控合成数据上了解了不同模块的性能后,我们进一步探讨一个问题:“这些发现能否推广到包含更加多样化交互的真实世界数据集?”

表III对TrajNet++真实数据集上Type III interacting轨迹的现有基线进行了全面评估。我们观察到,在相同条件下进行比较时,Col‐I指标是区分不同模型设计的区分因素。我们希望未来研究人员在报告其轨迹预测模型在轨迹预测数据集上的模型性能时,能够纳入碰撞指标。此外,ADE/FDE的性能相似(包括提交的方法),表明当前轨迹预测模型在充分采样的以交互为中心的测试集上的性能仍有很大的提升空间。

1) 经典方法 :我们首先与经典轨迹预测模型进行比较,即扩展卡尔曼滤波器(EKF)、恒定速度(CV)[95],社会力[17],和ORCA[26]。EKF和CV的高误差可归因于这些方法未对社交互动进行建模。社会力和ORCA模型均基于每个行人具有未来轨迹的假设来预测其轨迹

示意图11

预期运动方向(由目标驱动)和偏好速度。我们对观测到的轨迹进行插值,以确定每个智能体的虚拟目标。社会力模型和ORCA通过最小化ADE/FDE指标来拟合TrajNet++训练数据。基于交互的神经网络模型在基于距离的指标上优于手工设计模型,因为神经网络能够学习细微且多样的社交互动。

2) 基于网格的模块 :我们提出的D‐网格在现实世界中的表现也优于O‐Grid。比较D‐网格和S‐Grid的性能是很有意思的。当前S‐Grid的设计未能学习到预测碰撞的概念。这再次证实了在训练过程中以最小化ADE/FDE为目标时,LSTM的隐藏状态无法提供避免碰撞所需的表示能力。在 D‐网格的设计中,我们基于领域知识强制模型显式关注相对速度。我们的设计虽然简单,但略微影响了基于距离的准确性,因为我们限制了模型的表达能力。然而,由于基于领域知识的设计使模型学习社交概念的任务变得更简单,从而实现了更安全的预测。此外,如表IV所示,D‐网格相较于S‐Grid提供了显著的计算加速,使其适用于实时部署。

3) 聚合策略 :我们在真实世界数据上评估了各种聚合策略[D‐MLP‐注意力‐MLP, D‐MLP‐最大池化‐MLP, D‐MLP‐拼接‐ MLP] 的性能

示意图12

在保持其他所有因素不变的情况下,我们观察到最大池化策略由于其设计上对不同邻居的嵌入进行硬合并,表现最差。拼接策略尽管简单,但与更复杂的基于注意力的对应方法相比,性能仅略逊一筹。我们认为,在设计未来的信息聚合模块时,拼接基线是一个简单而强大的比较基准。一个值得注意的有趣现象是,D‐MLP‐注意力‐MLP的表现优于其社交版本S‐MLP‐注意力‐MLP,这进一步证实了基于知识的模块的强大优势。

4) 基于LSTM的交互模型 :在基于LSTM的非网格设计中,D‐MLP‐SumPool‐LSTM模块[55]表现出较高的 Col‐I指标,原因在于(1)采用了求和池化策略以及(2)对邻居的绝对坐标进行了编码。在现实世界场景中, O‐LSTM‐Att‐MLP[82]的Col‐I指标相对高于 D‐MLP‐Concat‐LSTM,这是由于O‐LSTM‐Att‐MLP的交互模型输入中未包含相对速度。通过比较 D‐MLP‐Concat‐LSTM与D‐MLP‐Concat‐MLP的性能,可以看出在我们提出的DirectConcat模型中引入基于 LSTM的嵌入的重要性。该设计选择有助于更好地建模高阶时空交互,并且由于LSTM控制了交互向量的演化,因此对现实世界测量数据中的噪声更具鲁棒性。前k个邻居是基于欧氏距离选取的。我们认为,通过考虑最近邻居来引入领域知识,是相较于基于注意力和最大池化方法能够提升Col‐I指标的原因之一。这一点可通过观察得到验证:与(k= 4)相比,当考虑更多数量的邻居(k= 8)时, Col‐I指标有所提升。

5) 与Vanilla LSTM的比较 :基于交互的模型在基于距离的指标方面优于Vanilla LSTM。然而,一个重要的讨论点是Vanilla LSTM与基于交互的模型在Col‐II指标方面的性能对比。我们需要提醒的是,Col‐II指标中的性能表示模型为自主行人预测了正确模式,从而使与邻居真实轨迹之间的碰撞最小化。由于真实世界数据的多模态特性,交互模型很可能为其中一个行人(主行人或邻居)预测了不同的模式,导致主行人未遵循真实模式。事实上,当前的两个交互模型[O‐MLP‐Att‐LSTM, D‐MLP‐SumP‐LSTM]在准确预测真实模式方面相较于 Vanilla LSTM表现较差。然而,

示意图13

这一观察结果并不削弱对社交互动建模的重要性。通过 Col‐I指标的对比可以证明,对社交互动进行建模是有效的:在给定主行人选择的行为模式下,交互模型能够为整个场景预测出无碰撞的未来轨迹,而Vanilla LSTM则无法做到这一点。

6) 修改的训练目标 :我们采用了一种修改的训练目标,仅对主行人进行惩罚,而不同于标准做法中对场景中的所有行人进行惩罚[52],[55],[82]。在TrajNet++真实世界数据集中,根据我们定义的分类可知,主行人的轨迹之间存在大量交互;然而,邻居行人的轨迹中有相当一部分是静态且线性的。在训练过程中惩罚这些邻居轨迹可能会导致网络倾向于学习线性和静态行为,从而因邻居带来的不平衡分布而产生偏差。

表V展示了我们的修改的训练目标在帮助模型更好地学习碰撞避免方面的有效性。在测试时,我们不提供真实值邻居轨迹。

7) 理解神经网络决策过程 :现在,通过使用流行的逐层相关性传播(LRP)技术,我们研究了在每个时间步各种输入因素如何影响神经网络的决策。这有助于我们验证神经网络的决策过程是否符合人类直觉。图11展示了在D‐网格模块和基线S‐Grid上应用LRP过程后得到的每个邻居的得分

示意图14

在现实世界场景中。

在场景1中,我们展示了LRP在简单现实世界示例中的应用。在D‐网格情况下,主行人开始关注潜在的碰撞对象N2,尽管它比N1更远,从而通过保持靠近N1来避免碰撞。另一方面,S‐Grid持续关注N1,这是不理想的。有趣的是,一旦N2超过主行人,D‐网格和S‐Grid都会将主行人的注意力重新转移到N1上。

在场景2中,我们在一个复杂的现实世界场景中展示了所提出的D‐网格模块的有效性。对于D‐网格,主行人最初关注N3以防止碰撞。在成功避开与N3的碰撞后,D‐网格立即把注意力转移到N1和N2这对行人上,因为他们可能会导致碰撞。当接近N1和N2时,由于N1距离主行人更近,注意力显著地转向N1。最后,

在传递N1 和 N2 时,主行人会关注前方的行人N4。另一方面,S‐Grid 从N1 和 N2 之间穿过,这种行为在人群场景中并不符合人类的行为预期。

因此,我们可以看到LRP是一种有效的分析工具,用于理解神经网络决策背后的原理。我们可以在表III中观察到,与S‐Grid相比,基于领域知识的D‐网格不仅具有更低的Col‐I指标,而且其在人群导航中的决策过程符合人类直觉。LRP技术是通用的,可应用于任何现有的已训练交互模块架构之上。

总之,尽管文献中声称某些特定的交互模块能更好地建模交互行为,但我们发现,在相同条件下,所有模块在基于距离的ADE和FDE指标上表现相似。引入Col‐I指标能够更全面地评估模型性能。其次,相对速度在现实世界中学习碰撞避免行为方面起着关键作用。第三,一种简单的拼接策略表现与复杂的基于注意力的对应方法相当。我们认为,在设计未来的信息聚合模块时,拼接基线应作为标准基线进行比较。最后,LRP技术是一种有用的分析工具,可用于深入了解神经网络的决策过程。我们希望这些实践有助于加快未来研究中交互模块的发展。该领域仍有改进空间,我们希望本基准能为推进轨迹预测领域提供必要的资源。我们已开源代码以确保可复现性。

七、结论

在这项工作中,我们解决了在人群环境中对行人之间社交互动进行建模的挑战。尽管社交互动建模是人类轨迹预测中的核心问题,但现有文献缺乏在相同条件下对多种交互模型设计进行明确的比较。我们对文献中提出的交互模块设计进行了深入分析,并提出了两种受领域知识启发的交互模型。

该领域中一个关键但缺失的组成部分是对这些基于交互的方法进行客观且具有信息量的评估。为解决这一问题,我们提出了TrajNet++:(1)TrajNet++以交互为中心,因为它主要包含通过我们定义的轨迹分类所识别出的发生交互的场景,涵盖现实世界和合成场景;(2)TrajNet++提供了一个全面评估系统,其中包括新颖的基于碰撞的指标,可用于衡量物理可行性的模型预测。TrajNet++的高质量体现在基于交互的模型在真实世界数据集上的所有指标均表现出更优的性能(在早期基准TrajNet[96],上排名前五的方法中有四种未建模社交互动)。此外,我们还展示了基于碰撞的指标如何为模型性能提供更清晰具体的评估结果。

我们提出的模型在TrajNet++合成数据集上通过与多个基线进行基准测试,表现优于具有竞争力的基线。该领域中流行的交互模块设计。在真实数据集上,当在相同条件下进行比较时,各种设计在基于距离的指标方面并无明显优劣。我们提出的交互模块设计在减少模型预测碰撞方面表现出显著提升。仍有改进空间,我们希望本基准能够帮助研究人员更客观、便捷地将其方法与现有工作进行比较,从而不断提升轨迹预测模型的质量,使我们能够应对更具挑战性的场景。

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐