摘要:在未来,随着高度自动化车辆的出现,驾驶员辅助系统的使用将变得更加普遍。最初,驾驶辅助系统仅仅辅助驾驶员进行驾驶,但必定会逐渐接管整个车辆的控制。在这一过程中,车辆必须自己规划行驶轨迹并安全的地跟踪该轨迹,同时保证乘客的舒适。为了开发出合适的轨迹追踪控制器,必须首先在模拟环境中进行仿真,然后进行实车的测试。在之前的一篇论文中,作者使用了不同的路径跟踪控制器,并先后进行了仿真与实车测试。在仿真环境中,使用了描述车辆横向动力学特性的单轨模型。仿真和实车测试的结果显示出了一定的差异。本文旨在找出在转向系统的动态特性中出现差异的原因,包括轮胎的影响。在此基础上,我们调整了车型,并进行了测量以识别转向系统和轮胎的动力学。在分析测量结果后,建立了描述转向系统的动力学模型,在此基础上扩展了车辆模型。最后,使用改进后的车辆模型进行了仿真,并与实车试验结果进行了对比,结果表明模型改进后更加贴近实车试验的结果。 在最近的一些研究中可以找到关于人群分析的详细文献[24][13][20],特别是关于人群动态建模、社会活动预测和群体分割等主题。在下一段中,我们将集中讨论两个具体的次主题,即群体分析和预测。 2.1 人群中的群体分析在早期的方法中,轨迹被用来代表人群的低水平运动特征。通过将具有相似运动趋势的轨迹聚类,可以将行人聚成不同的群体。在[42]中,利用传统的k-means算法学习场景中不同的运动模式。在[21]中,利用支持向量聚类对行人进行分组。在[44]中,提出相干滤波来检测在拥挤的[40]环境中的相干运动模式。就集体活动的表现而言,Ge等人[12]致力于对一起运动的小团体的自动检测。Ryoo等人[31]引入了群体活动的概率表示,以识别不同类型的高级群体行为。Yi等人[41]研究了静止人群组与行人之间的相互作用,分析了行人的行为,包括行走路径预测、目的地预测、个性分类、异常事件检测等。Shao等人[32]提出了一系列与场景无关的描述符来定量描述群体属性,如集体性、稳定性、一致性和冲突。Bagautdinov[7]等人提出了一个统一的端到端框架,用于使用深度递归网络进行多人动作定位和集体活动识别。2.2 社会活动预测预测社会活动最近得到了相当多的关注,特别是在人群分析方面。该研究领域较为丰富,涉及轨迹预测、交互建模和情境建模。在社会活动分析的前沿研究中,Helbing等人[17]引入了著名的社会力模型(socialForce Model, SFM),该模型能够描述人类之间的社会互动[23,27]。其他模型,如连续人群模型[36]和交互避碰[37],能够利用先验再现人类交互。在[3]中,社会亲和力地图(SAM)特征和起点终点先验被提出,利用多视点监控摄像头预测行人目的地。Robicquet等人[29]引入了一个大型数据集,该数据集使用航拍相机包含各种类型的目标(行人、骑自行车的人、滑板者、汽车、公共汽车和高尔夫球车),以评估真实户外环境中的轨迹预测性能。[1][26]中还考虑了上下文信息,对场景的静态环境和动态演化进行建模。 最近,神经网络被用于预测拥挤视频中的事件。特别是随着深度生成模型(如RNN、LSTM、VAE)的出现,可以很好地解决序列-序列生成问题,使直接处理长期预测任务成为可能。Alahi等人[2]提出了所谓的Social- lstm,通过增加新的社交池层来模拟邻里间的互动;Lee等人在[22]中提出了一种深度随机IOC RNN编解码器框架,用于预测动态场景中多个交互agent未来的路径。Ballan等人[8]考虑了移动目标的动力学和场景语义来预测场景特定的运动模式。 社会活动往往不仅受运动动力学的支配,还受人的因素的驱动。Jain等人的[19]采用了一种结合时空图和递归神经网络的结构RNN来模拟场景中的运动和交互。Fernando等人[38]将软注意和硬注意同时应用于社会LSTM,显著提高了轨迹预测性能。Varshneya等人提出了一种软注意机制来预测个体的路径,该机制利用了空间感知的深度注意力模型。Vemula等人提出了一种新的社会注意力模型,该模型可以捕捉到每个人在场景中运动时的相对重要性。 拥挤场景中行人的运动受到周围人的行为及其相互关系的影响。静止的人群,一起行走的人群,来自相反方向的人,会对一个行人的行为产生不同的影响。因此,在预测一个人在人群中的行为时,有必要考虑周围的人。 为了实现这一目标,我们提出了一个框架,该框架能够考虑所关注的对象是否与周围的行人连贯地行走。利用相干滤波方法[44],首先检测人群中运动的相干性,然后利用社会LSTM预测未来的运动轨迹。通过这种方式,我们能够提高预测性能,在场景中考虑社会相关和不相关行人之间的交互作用。 3.1 行人轨迹聚类相干运动描述了行人在群体中的集体运动。相干滤波研究的是相干运动的行人的局部时空关系。该算法基于两个步骤。首先,它检测场景中行人的连贯运动。然后,连贯移动的点与相同的集群相关联。点集群将继续进化,随着时间的推移,新的集群将出现。最后,每个行人i被分配到一个集群si。相干滤波的输出是由以相干方式运动的人的集合si(i = 1,2,···,n)组成。如果行人不移动或不属于任何相干群,则视为属于自己的集合。 相干滤波最初依赖于KLT tracker[35],目标是检测候选点进行跟踪并生成轨迹,然后作为算法的输入。KLT跟踪器可能会检测到每个行人的许多关键点,因此关键点的数量和行人的数量之间没有明显的对应关系。我们的目标是将行人分组,每组中的每个个体用一个点表示,如图1所示。为此,在不失一般性的前提下,我们将相干滤波算法直接应用于行人轨迹的地面真值。 3.2 群体轨迹预测我们扩展了Alahi等人的工作,他们通过引入一个所谓的社会汇聚层来模拟附近行人的关系。在社交LSTM模型中,行人使用LSTM网络建模,如图2所示。此外,每个行人都通过一个社交汇聚层与周围的其他人联系在一起。社交汇聚层允许行人分享他们的隐藏状态,从而使每个网络根据个人的隐藏状态和邻居的隐藏状态来预测个人未来的位置。 在LSTM网络中,场景中时刻t的第i个行人用隐藏状态hi t表示。我们分别将隐藏状态维数设为D和邻域大小设为N0。第i个行人的邻域用一个张量Hi t来描述,就像在公式1中一样,维数为N0X N0 X D。 其中1mn[x,y]是一个选择附近行人的指标函数,具体定义如公式2。 如果两个行人i和j属于相同的相干运动集si,那么在为每个行人计算社会池层时就不会考虑它们。 这样,每个行人的社交汇聚层只包含关于行人的信息,这些信息与行人的移动不一致。一旦计算出来,社会隐藏状态张量被嵌入到一个向量ai t中。输出坐标被嵌入到向量ei t中。根据[2]中定义的递归式,我们可以逐步地预测我们的轨迹。 4.1 实施细节首先,我们需要配置相干滤波来聚集行人。为达此目的,根据原来的实现我们使用K = 10 , d = 1 并且λ= 0.2。对于我们的LSTM网络,我们采用以下配置。空间坐标的嵌入维数设置为64。空间池大小设置为32,对应面积为4×4 m2。池操作是使用大小为8×8且没有重叠的池窗口来执行的。隐藏层的维度设置为128。学习速率被设置为0.003,使用了RMS-prop优化器。模型基于pytorch实现,用单个GPU进行训练。 4.2 定量结果我们的实验是在两个公开可用的数据集上进行的,这两个数据集通常用作拥挤人群场景的标准基准,即UCY数据集[23]和ETH数据集[27]。 这两个数据集呈现了一个相当大的现实世界的轨迹集,涵盖了各种复杂的人群行为,这对我们的研究来说是特别有趣的。 与其他研究工作一样[27,2],我们使用以下两个指标来评估我们的结果: 平均位移误差(ADE),即预测路径各点相对于地面真值路径的平均位移误差(以米为单位)。 最终位移误差(FDE),即预测轨迹末点到地面真实轨迹末点的距离(以米为单位)。 在我们的实验中,我们采用了与[2]相同的评估程序。该模型经过了训练和验证。我们对4个视频进行训练,对剩下的视频进行测试,得到预测结果。对于训练和验证,我们使用0.4秒的时间间隔观察和预测轨迹。我们观察8个时间步的轨迹并预测接下来的12个时间步,这意味着我们观察tobs = 3.2秒的轨迹并预测下一个tpred = 4.8秒。在训练阶段,只考虑在场景中出现至少8秒的轨迹。 我们将我们的方法与社会LSTM模型[2]及其最新的变体[14]进行了比较。我们还将我们的模型与[2]在线性加速度的假设下使用卡尔曼滤波进行预测的线性模型进行了比较。结果如表1所示。 我们的方法的平均性能优于或等于其他方法,特别是在UCY数据集上。这是由于场景中人群流动的特点,通常是由朝相反方向行走的容易识别的群体组成。然而,对于ETH数据集,运动模式更加多样和混乱。 结果表明,在考虑行人运动不连贯的情况下,预测性能可以得到提高。我们认为运动的变化和轨迹的演变主要受相对于被预测行人向不同的方向运动的行人的影响。相反,人们走在一起时,彼此之间的影响较弱,因为他们在一个群体中。 4.3 定性结果在第4.2节中,我们已经证明只考虑行人不连贯的移动可以提高预测精度。在本节中,我们将进一步评估预测轨迹的一致性。 通常,基于lstm的轨迹预测方法遵循数据驱动方法。此外,人群中行人的未来轨迹很大程度上受到他们的目标、环境和过去的运动历史的影响。将正确的数据汇聚到社会层可以显著提高预测性能。 为了保证可靠的预测,我们不仅需要考虑时空关系,还需要保持行为的社会性。根据人际距离的研究[15,10],社会相关的人倾向于在他们的个人空间里靠得更近,在拥挤的环境中一起行走,而不是和陌生的人一起行走。 只汇集不相关的行人将更关注宏观的组间交互,而不是组内动态,从而允许LSTM网络提高轨迹预测性能。如果两个行人像一群人一样走在一起,那么避免碰撞也会以类似的方式影响行人未来的运动。 在表2,表3和图4中,我们展示了一些突出我们的Group-LSTM如何能够更精确地预测行人轨迹的演示,来表明当我们把每个行人的社会张量集中在一起时,只有不属于他的群体的行人,预测是如何改进的。 在表2中,我们展示了两个行人在人群中一起行走时,当他们没有被汇集到彼此的汇集层中时,他们的预测是如何改进的。当两个行人汇集在一起时,网络对他们施加典型的斥力,以避免相互碰撞。因为他们在同一组,他们彼此允许在空间上靠得更近。 在图4中,我们显示了两组相对走向的序列。在表3显示了两组的预测相对于社会LSTM。虽然这两种预测都不是很准确,但我们的Group-LSTM表现得更好,因为它能够预测属于同一组的行人在环境中如何保持在一起。 表3 我们展示了在相反方向行走的两组人的预测是如何改进的。绿色的点代表地面真实轨迹,而蓝色的叉代表预测的路径。 在这项工作中,我们解决了拥挤场景中行人轨迹预测的问题。提出了一种将相干滤波算法与LSTM网络相结合的新方法。相干滤波用于识别人群中一起行走的行人,而LSTM网络用于利用组内动态来预测未来的轨迹。实验结果表明,在两个公开的基准(UCY和ETH数据集)上,我们提出的Croup-LSTM性能优于Social-LSTM。在未来的工作中,我们计划进一步研究社会关系,以及固定的障碍物会如何影响其他行人的行为。 |
|