智能论文笔记

SHERLock: Self-Supervised Hierarchical Event Representation Learning

Sumegh Roychowdhury , Sumedh A. Sontakke , Nikaash Puri , Mausoom Sarkar , Milan Aggarwal , Pinkesh Badjatiya , Balaji Krishnamurthy , Laurent Itti

分类：机器学习 | 人工智能 | 自然语言处理

2020-10-06

时间事件表示是人类学习的重要方面。它们允许通过各种感官输入简要地编码我们所拥有的经验。此外，据信它们是按层次安排的，可以有效地表示复杂的长途体验。此外，这些表示以一种自制的方式获得。类似地，在这里，我们提出了一个模型，该模型从长远的视觉演示数据和相关的文本描述中学习时间表示，而无需明确的时间监督。我们的方法产生的表示形式的层次结构与最新的无监督基线相比，与地面真实的人类通知事件（+15.3）更紧密地保持一致。我们的结果可与复杂的视觉域中的大量监督基线相提并论，例如棋子开口，YouCook2和TutorialVQA数据集。最后，我们进行消融研究，说明了我们方法的鲁棒性。我们在补充材料中释放代码和演示可视化。

translated by 谷歌翻译