Generative Adversarial Networks (GANs) have received wide acclaim among the machine learning (ML) community for their ability to generate realistic 2D images. ML is being applied more often to complex problems beyond those of computer vision. However, current frameworks often serve as black boxes and lack physics embeddings, leading to poor ability in enforcing constraints and unreliable models. In this work, we develop physics embeddings that can be stringently imposed, referred to as hard constraints, in the neural network architecture. We demonstrate their capability for 3D turbulence by embedding them in GANs, particularly to enforce the mass conservation constraint in incompressible fluid turbulence. In doing so, we also explore and contrast the effects of other methods of imposing physics constraints within the GANs framework, especially penalty-based physics constraints popular in literature. By using physics-informed diagnostics and statistics, we evaluate the strengths and weaknesses of our approach and demonstrate its feasibility.
translated by 谷歌翻译
In this paper, we propose a robust election simulation model and independently developed election anomaly detection algorithm that demonstrates the simulation's utility. The simulation generates artificial elections with similar properties and trends as elections from the real world, while giving users control and knowledge over all the important components of the elections. We generate a clean election results dataset without fraud as well as datasets with varying degrees of fraud. We then measure how well the algorithm is able to successfully detect the level of fraud present. The algorithm determines how similar actual election results are as compared to the predicted results from polling and a regression model of other regions that have similar demographics. We use k-means to partition electoral regions into clusters such that demographic homogeneity is maximized among clusters. We then use a novelty detection algorithm implemented as a one-class Support Vector Machine where the clean data is provided in the form of polling predictions and regression predictions. The regression predictions are built from the actual data in such a way that the data supervises itself. We show both the effectiveness of the simulation technique and the machine learning model in its success in identifying fraudulent regions.
translated by 谷歌翻译
我们介绍了遮阳板,一个新的像素注释的新数据集和一个基准套件,用于在以自我为中心的视频中分割手和活动对象。遮阳板注释Epic-kitchens的视频,其中带有当前视频分割数据集中未遇到的新挑战。具体而言,我们需要确保像素级注释作为对象经历变革性相互作用的短期和长期一致性,例如洋葱被剥皮,切成丁和煮熟 - 我们旨在获得果皮,洋葱块,斩波板,刀,锅以及表演手的准确像素级注释。遮阳板引入了一条注释管道,以零件为ai驱动,以进行可伸缩性和质量。总共,我们公开发布257个对象类的272K手册语义面具,990万个插值密集口罩,67K手动关系,涵盖36小时的179个未修剪视频。除了注释外,我们还引入了视频对象细分,互动理解和长期推理方面的三个挑战。有关数据,代码和排行榜:http://epic-kitchens.github.io/visor
translated by 谷歌翻译
光学相干断层扫描血管造影(OCTA)可以非侵入地对眼睛的循环系统进行图像。为了可靠地表征视网膜脉管系统,有必要自动从这些图像中提取定量指标。这种生物标志物的计算需要对血管进行精确的语义分割。但是,基于深度学习的分割方法主要依赖于使用体素级注释的监督培训,这是昂贵的。在这项工作中,我们提出了一条管道,以合成具有本质上匹配的地面真实标签的大量逼真的八颗图像。从而消除了需要手动注释培训数据的需求。我们提出的方法基于两个新的组成部分:1)基于生理的模拟,该模拟对各种视网膜血管丛进行建模和2)基于物理学的图像增强套件,这些图像增强量模拟了八八章图像采集过程,包括典型文物。在广泛的基准测试实验中,我们通过成功训练视网膜血管分割算法来证明合成数据的实用性。在我们方法的竞争性定量和优越的定性性能的鼓励下,我们认为它构成了一种多功能工具,可以推进对八章图像的定量分析。
translated by 谷歌翻译
我们为环境辅助生活(AAL)提出了一种新型的多模式传感器融合方法,该方法利用了使用特权信息(LUPI)学习的优势。我们解决了标准多模式方法的两个主要缺点,有限的面积覆盖率和降低的可靠性。我们的新框架将模幻幻觉的概念与三胞胎学习融合在一起,以训练具有不同模态的模型,以在推理时处理缺失的传感器。我们使用RGB视频和骨骼作为特权模式评估了来自可穿戴加速度计设备的惯性数据的拟议模型,并在UTD-MHAD数据集中表现出平均6.6%的准确性,平均为5.5%,伯克利MHAD MHAD DATASET的准确性为5.5%,在这些数据集上达到新的最新唯一分类精度。我们通过几项消融研究来验证我们的框架。
translated by 谷歌翻译
在本报告中,我们建议针对四个EGO4D挑战任务,包括自然语言查询(NLQ),MOMMER QUERY(MQ),对象状态变更分类(OSCC),以及PNR定位(PNR)。尤其是,我们将最近发布的EGO4D数据集\ cite {grauman2021ego4d}从预处理数据集,预处理目标和开发集中从egecentric vlp中提升。基于上述三个设计,我们开发了一个验证的视频语言模型,该模型能够将其以自我为中心的视频文本表示或仅视频表示形式转移到几个视频下游任务中。我们的Egentric VLP在NLQ上实现10.46r@1&iou @0.3,MQ上的10.33地图,OSCC上的74%ACC,PNR上的0.67秒错误。该代码可在https://github.com/showlab/egovlp上找到。
translated by 谷歌翻译
在本文中,我们评估了以自我为中心数据的最新OCR方法。我们在Epic-Kitchens图像中注释文本,并证明现有的OCR方法与旋转的文本难以抗争,这是在处理物体上经常观察到的。我们引入了一个简单的旋转和合并过程,该过程可以应用于预先训练的OCR模型,该模型将标准化的编辑距离误差减半。这表明未来的OCR尝试应将旋转纳入模型设计和培训程序。
translated by 谷歌翻译
本文提出了一种用于在视频中的手和对象之间建模时空关系的交互推理网络。所提出的相互作用单元利用变压器模块来推理每个作用手,以及与另一方面的时空关系以及与之相互作用的物体。我们表明,建模双手交互对于在EGENTRIC视频中的动作识别至关重要,并证明通过使用定位编码的轨迹,网络可以更好地识别观察到的相互作用。我们在史诗厨房和别的东西上评估我们的建议,并进行消融研究。
translated by 谷歌翻译
我们提出了一个临时投票网络(TVNet),用于在未经监控的视频中进行行动定位。这包括一个新的投票证据模块来定位时间边界,更准确地,其中累积时间上下侧证据以预测开始和结束动作边界的帧级概率。我们独立于行动的证据模块纳入管道内,以计算置信度分数和行动课程。我们在ActivityNet-1.3上达到34.6%的平均地图,特别优于以前的方法0.95。TVNET在与PGCN结合和59.1%时,TVCN在0.5 IOU上的PGCN和59.1%上的距离在Thumos14上的距离和所有阈值以前的工作。我们的代码可在https://github.com/hanielwang/tvnet上获得。
translated by 谷歌翻译
我们的生活可以被视为一个复杂的活动编织;我们从一个活动转移到另一个活动,以最大限度地提高我们的成就或在我们对我们身上的要求中的成就。观察日常活动的视频,我们通过我们称之为戒烟的过程将视频解析为其组成活动线程。为实现这一点,我们介绍了一种显式捕获称为线程库的活动线程的视频表示,以及能够检测目标变化和过去的活动恢复的神经控制器一起形成笨重。我们培训并评估从未证明的Enocentric数据集史诗厨房的序列上的笨重。我们提出并展示了以自我监督的方式预先造型借口的疗效。
translated by 谷歌翻译