智能论文笔记

Temporal View Synthesis of Dynamic Scenes through 3D Object Motion Estimation with Multi-Plane Images

Nagabhushan Somraj , Pranali Sancheti , Rajiv Soundararajan

分类：计算机视觉

2022-08-19

可以通过定期预测未来的框架以增强虚拟现实应用程序中的用户体验，从而解决了低计算设备上图形渲染高帧速率视频的挑战。这是通过时间视图合成（TVS）的问题来研究的，该问题的目标是预测给定上一个帧的视频的下一个帧以及上一个和下一个帧的头部姿势。在这项工作中，我们考虑了用户和对象正在移动的动态场景的电视。我们设计了一个将运动解散到用户和对象运动中的框架，以在预测下一帧的同时有效地使用可用的用户运动。我们通过隔离和估计过去框架的3D对象运动，然后推断它来预测对象的运动。我们使用多平面图像（MPI）作为场景的3D表示，并将对象运动作为MPI表示中相应点之间的3D位移建模。为了在估计运动时处理MPI中的稀疏性，我们将部分卷积和掩盖的相关层纳入了相应的点。然后将预测的对象运动与给定的用户或相机运动集成在一起，以生成下一帧。使用不合格的填充模块，我们合成由于相机和对象运动而发现的区域。我们为动态场景的电视开发了一个新的合成数据集，该数据集由800个以全高清分辨率组成的视频组成。我们通过数据集和MPI Sintel数据集上的实验表明我们的模型优于文献中的所有竞争方法。

translated by 谷歌翻译

视频预测模型的研究被认为是对视频学习的基本方法。虽然存在用于预测过去几帧的未来帧像素值的多种生成模型，但已经发现预测帧的定量评估非常具有挑战性。在这种情况下，我们研究了预测视频的质量评估问题。我们创建了印度科学研究所预测视频质量评估（IISC PVQA）数据库，该数据库由300个视频组成，通过在不同的数据集上应用不同的预测模型，并伴随着人类观察分数。我们收集了这些视频的50名人类参与者的主观评级。我们的主观研究表明，人类观察者在预测视频的质量判断中非常一致。我们基准评估视频预测的几种普遍使用的措施，并表明它们与这些主观评分没有充分相关。我们介绍了两个新功能，以有效地捕获预测视频的质量，具有过去的帧的预测帧的深度特征的运动补偿余弦相似之处，以及从重新置于帧差异中提取的深度特征。我们表明，我们的特色设计导致了根据ISC PVQA数据库的人类判断的艺术质量预测的状态。数据库和代码在我们的项目网站上公开提供：https://nagabhushansn95.github.io/publications/2020/pvqa

translated by 谷歌翻译