自驾车猜出你的下一步

自駕車猜出你的下一步

在转弯的路口上,司机和行人正打着心理战。谁先停、谁先行?如果没有达成默契,在一声巨响之后,便会留下永久的遗憾。近年来,自动车逐渐普及,「如何预测行人的下一步」显得更加重要。倘若AI能够预先判断行人的行动方向与位置,便拥有较多空档进行更完善的策略评估,除增进人机互动的默契外,也在速度和安全间求得平衡,提升都市的交通效率。

SMPL模型

事实上,人类姿态预测的研究不在少数。有些模型利用主要关节位置表示目标的姿势,并以2D图形输出预测结果,减轻不少影像表示的麻烦;然而这个看似合理的设计,其实牺牲了不少细节,侷限了模型应用的潜力。举例来说,图一中 (a)无法解释目标的手心方向,虽说就目前的画格而言似乎无伤大雅,但很可能影响接下来的猜测,做出完全截然不同的判断。

自驾车猜出你的下一步

图一、2D骨架与3D网格表示图的差别(图片来源:X. Du, et al, 2019.)

有些模型则需要将目标置中定位,因此无法负担多人预测。而这样的限制会影响机器的判断,尤其在熙来攘往的十字路口上,众人会同时移动,我们需要注意的,不是某个特定焦点,而是整体交通状况。

bio-LSTM便是为了这个目的而诞生,除了採用擅长序列预测(sequence prediction)的长短期记忆网络(Long short-term memory,LSTM),还搭载SMPL模型(Skinned Multi-Person Linear Model),藉由85个参数构成表面网格(mesh),将先前的2D推广为3D资料,其中包含3个纪录人物与侦测系统距离的变换参数(translation parameter)、72个表示关节位置和旋转角度的姿势参数(post parameter)以及10个代表人体轮廓的形状参数(shape parameter)。

比起单纯分析骨架关节位置,SMPL在还原人物方面考虑了更多细节,有效降低预测的失误,而变换参数也改良了原先人物置中的缺陷,解决无法进行多人分析的窘境。

步态生物力学

自驾车猜出你的下一步

图二、bio-LSTM的结构示意图(图片来源:X. Du, et al, 2019.)

bio-LSTM的结构(如图二所示)除了以两层式LSTM循环神经网路为主干、SMPL参数来表示资料之外,还利用步态生物力学(gait biomechanics)来修正运动预测的不合理处。

首先,研究学者发现,人类在稳定行进时的步伐具有一定的规律,于是假设人腿会进行週期运动,其中相邻画格的脚速、方向和步长不会遽然大变,因此我们只需要推算画格之间的差数即可(如图三)也就是将预测的差数( d^)和训练资料的事实(dt)进行比对,建立「週期损失函数」(Lc),符合人类的实际运动状态。

\[ L_c=|d_t-\hat{d_t}| \]自驾车猜出你的下一步

图三、dt表示时间t和时间t-1的资料差值。(图片来源:X. Du, et al, 2019.)

再者,人类在站立和行走时,身体应当呈现镜像对称(mirror symmetry),维持左脚和右脚与铅直线的夹角相等(如图四),肩膀与身体中线的夹角亦然。因此,我们定义「对称损失函数」(Ls),将人类运动时的平衡感考虑在内。

\[ L_s=|\Theta_{leg1}+\Theta_{leg2}|+|\Theta_{shoulder1}+\Theta_{shoulder2}| \]自驾车猜出你的下一步

图四、Θ_1和Θ_2分别为左腿和右腿与铅直线的夹角,(c)为平衡稳定状态。(图片来源:X. Du, et al, 2019.)

最后,足够的地面反作用力(Ground Reaction Force)是人类支撑自身身体十分重要的一环,而此力量主要由双脚提供。导致人类在稳定行进时一定要与地面接触,否则会踉跄摔跤。于是我们需要定义「GRF损失函数」(Lg),讨论脚底离地的体积(如图五),考虑重力带来的运动限制:

\[ L_g=wD(L\cos\alpha)-1/2w(L\sin\alpha)(L\cos\alpha) \]自驾车猜出你的下一步

图五,脚底板被简化为平面,方便计算离地体积。(图片来源:X. Du, et al, 2019.)

归结以上三种生物力学因子,能预测人类稳定步行动作的目标函数即为:

\[ min{L}=L_c+\lambda_1L_s+\lambda_2L_g \]

两个正规化参数(regularized parameter)λ1和λ2,分别根据迴路测试的结果定为10和0.01,调整不同因子对人体运动的影响权重。

bio-LSTM的前景

自驾车猜出你的下一步

图六、bio-LSTM的预测结果(绿人)与实际情形(红人)的比较。(图片来源:X. Du, et al, 2019.)

目前已可藉由过去五个画格的表现,精确预测行人下一画格的状况(人类的步伐周期大约五至六个画格),如图六中预测结果(绿人)其实已与实际情形(红人)相去无几;除「一般步行」外,在「端着咖啡」、「扛揹重物」和「手机滑落」的情境下,也能有相当卓越的成绩,可见bio-LSTM的学习潜力不容小觑。

但若想要一次预测数个画格呢?这种预测称为MTP(Multiple-Timestep Prediction),需要不断将输出餵回网路,成为新预测的参考资料(如图二中的虚线),但也可能因此导致误差越滚越大,波及预测的参考价值。然而,bio-LSTM的表现仍旧毫不逊色,和相对简易的模型相比,结果明显更贴近现实,合理还原人类稳定行进时的大致步态(如图七)。

自驾车猜出你的下一步

图七、MTP预测结果。(图片来源:X. Du, et al, 2019.)

虽然bio-LSTM目前仍停留在草创阶段,而只能考虑个体行为。但或许在不远的将来,我们真能够打造出低事故发生率又兼顾车流顺畅的完美「行人友善路口」。

参考资料

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)

上一篇: 下一篇: