由于严重的自我闭合体和Fish-eye视图从头部安装的摄像头引起的强烈失真,图像中的Egentric 3D人类姿势估计(HPE)具有挑战性。尽管现有作品使用中间热图的表示来抵消扭曲,但解决自我封锁仍然是一个空旷的问题。在这项工作中,我们利用过去框架的信息来指导我们基于自我注意的3D HPE估计程序-Ego-Stan。具体而言,我们构建了一个时空变压器模型,该模型可用于基于语义上丰富的卷积神经网络特征图。我们还提出了功能地图令牌:一组新的可学习参数,可以参与这些特征地图。最后,我们证明了自我Stan在XR-Egopose数据集上的出色表现,在该数据集中,它在总体平均每个接头位置误差方面取得了30.6%的提高,而与最新的最新参数相比,参数下降了22%。艺术。
translated by 谷歌翻译