Unsupervised approaches to learning in neural networks are of substantial interest for furthering artificial intelligence, both because they would enable the training of networks without the need for large numbers of expensive annotations, and because they would be better models of the kind of general-purpose learning deployed by humans. However, unsupervised networks have long lagged behind the performance of their supervised counterparts, especially in the domain of large-scale visual recognition. Recent developments in training deep convolutional embeddings to maximize non-parametric instance separation and clustering objectives have shown promise in closing this gap. Here, we describe a method that trains an embedding function to maximize a metric of local aggregation, causing similar data instances to move together in the embedding space, while allowing dissimilar instances to separate. This aggregation metric is dynamic, allowing soft clusters of different scales to emerge. We evaluate our procedure on several large-scale visual recognition datasets, achieving state-of-the-art unsupervised transfer learning performance on object recognition in ImageNet, scene recognition in Places 205, and object detection in PASCAL VOC.
translated by 谷歌翻译
Efficient motion planning algorithms are of central importance for deploying robots in the real world. Unfortunately, these algorithms often drastically reduce the dimensionality of the problem for the sake of feasibility, thereby foregoing optimal solutions. This limitation is most readily observed in agile robots, where the solution space can have multiple additional dimensions. Optimal control approaches partially solve this problem by finding optimal solutions without sacrificing the complexity of the environment, but do not meet the efficiency demands of real-world applications. This work proposes an approach to resolve these issues simultaneously by training a machine learning model on the outputs of an optimal control approach.
translated by 谷歌翻译
Energy consumption in buildings, both residential and commercial, accounts for approximately 40% of all energy usage in the U.S., and similar numbers are being reported from countries around the world. This significant amount of energy is used to maintain a comfortable, secure, and productive environment for the occupants. So, it is crucial that the energy consumption in buildings must be optimized, all the while maintaining satisfactory levels of occupant comfort, health, and safety. Recently, Machine Learning has been proven to be an invaluable tool in deriving important insights from data and optimizing various systems. In this work, we review the ways in which machine learning has been leveraged to make buildings smart and energy-efficient. For the convenience of readers, we provide a brief introduction of several machine learning paradigms and the components and functioning of each smart building system we cover. Finally, we discuss challenges faced while implementing machine learning algorithms in smart buildings and provide future avenues for research at the intersection of smart buildings and machine learning.
translated by 谷歌翻译
恢复面部和文档图像的检测是一项重要的法医任务。经过深入的学习,面部抗散热器(FAS)和重新接收的文件检测的表现得到了显着改善。但是,对于法医提示较弱的样品,表演尚不令人满意。可以量化法医提示的数量,以允许可靠的法医结果。在这项工作中,我们提出了一个放大性评估网络,以量化质疑样品的允许性。在实际重新接收检测过程之前,将拒绝低固定性样品,以提高重新接收检测系统的效率。我们首先提取与图像质量评估和法医任务相关的判定性特征。通过利用图像质量和法医功能的法医应用的域知识,我们定义了特定于任务的规定类别和特征空间中的初始化位置。根据提取的功能和定义的中心,我们使用跨凝结损失训练提出的法医评估网络(FANET),并使用基于动量的更新方法更新中心。我们将受过训练的粉丝与实际重新接收检测方案相结合,并在抗spofing和重新接收的文档检测任务中。实验结果表明,对于基于CNN的FAS方案而言,狂热者通过拒绝最低30%放大性得分的样本,将EERS从Rose to IDIAP方案下的ERS降低到19.23%。在被拒绝的样品中,FAS方案的性能很差,EER高达56.48%。在FAS中的最新方法和重新接收的文档检测任务中,已经观察到了拒绝低差异性样品的类似性能。据我们所知,这是评估重新捕获文档图像并提高系统效率的第一份工作。
translated by 谷歌翻译
3D点云的客观质量评估对于在现实世界应用中的沉浸式多媒体系统的开发至关重要。尽管对2D图像和视频的感知质量评估成功,但对于具有大规模不规则分布的3D点的3D点云仍然很少。因此,在本文中,我们提出了一个带有结构引导重采样(SGR)的客观点云质量指数,以自动评估3D密集点云的感知视觉质量。所提出的SGR是无需任何参考信息的通用盲质量评估方法。具体而言,考虑到人类视觉系统(HVS)对结构信息高度敏感,我们首先利用点云的唯一正常向量来执行区域预处理,其中包括按键重新采样和局部区域构建。然后,我们提取三组与质量相关的特征,包括:1)几何密度特征; 2)颜色自然特征; 3)角度一致性特征。人脑的认知特征和自然性的规律性都涉及设计的质量感知功能,这些特征可以捕获扭曲的3D点云的最重要方面。对几个公开可用的主点云质量数据库进行的广泛实验验证了我们提出的SGR可以与最新的全参考,减少引用和无参考质量评估算法竞争。
translated by 谷歌翻译
高分辨率光触觉传感器越来越多地用于机器人学习环境中,因为它们能够捕获与试剂环境相互作用直接相关的大量数据。但是,由于触觉机器人平台的高成本,专业的仿真软件以及在不同传感器之间缺乏通用性的模拟方法,因此在该领域的研究障碍很高。在这封信中,我们将触觉健身房的模拟器扩展到两种最受欢迎​​的类型类型的三个新的光学触觉传感器(Tactip,Digit和Digitac),分别是Gelsight Style(基于图像遮蔽)和Tactip Style(基于标记)。我们证明,尽管实际触觉图像之间存在显着差异,但可以与这三个不同的传感器一起使用单个SIM到实现的方法,以实现强大的现实性能。此外,我们通过将其调整为廉价的4道机器人组来降低对拟议任务的进入障碍,从而进一步使该基准的传播。我们在三个需要触摸感的身体相互交互的任务上验证了扩展环境:对象推动,边缘跟随和表面跟随。我们实验验证的结果突出了这些传感器之间的一些差异,这可能有助于未来的研究人员选择并自定义触觉传感器的物理特征,以进行不同的操纵场景。
translated by 谷歌翻译
在本报告中,我们建议针对四个EGO4D挑战任务,包括自然语言查询(NLQ),MOMMER QUERY(MQ),对象状态变更分类(OSCC),以及PNR定位(PNR)。尤其是,我们将最近发布的EGO4D数据集\ cite {grauman2021ego4d}从预处理数据集,预处理目标和开发集中从egecentric vlp中提升。基于上述三个设计,我们开发了一个验证的视频语言模型,该模型能够将其以自我为中心的视频文本表示或仅视频表示形式转移到几个视频下游任务中。我们的Egentric VLP在NLQ上实现10.46r@1&iou @0.3,MQ上的10.33地图,OSCC上的74%ACC,PNR上的0.67秒错误。该代码可在https://github.com/showlab/egovlp上找到。
translated by 谷歌翻译
在本报告中,我们为Epic-kitchens-100多实体检索(miR)挑战提出了一个基于视频的预处理(VLP)解决方案\ cite {kevin202222222egovlp}。尤其是,我们将最近发布的EGO4D数据集\ cite {grauman2021ego4d}从预处理数据集,预处理目标和开发集中从egecentric vlp中提升。基于上述三个设计,我们开发了一个预验证的视频语言模型,该模型能够将其自我为中心的视频文本表示为mir基准。此外,我们设计了一种自适应多构度最大损失,以有效地微调模型并为可靠的推理配备双重效果技术。我们最好的单个模型在挑战测试集上获得了强劲的性能,其中47.39%的地图和61.44%的NDCG。该代码可在https://github.com/showlab/egovlp上找到。
translated by 谷歌翻译
人重新识别(人REID)模型的现有评估指标着重于系统范围的性能。但是,我们的研究揭示了由于摄像机之间的数据分布不平的弱点和将REID系统暴露于剥削的不同摄像头性能。在这项工作中,我们提出了长期以来的摄像机性能不平衡问题,并从38个摄像机中收集了现实世界中的隐私意识数据集,以帮助研究不平衡问题。我们提出了新的指标来量化摄像机性能不平衡,并进一步提出了对抗性成对的反向关注(APRA)模块,以指导模型学习摄像机不变特征,并具有新颖的成对注意反转机制。
translated by 谷歌翻译
我们引入了一种称为吉祥物(具有最佳传输的多代理形状控制)的方法,以计算具有形状/形成/密度约束的剂的最佳控制溶液。例如,我们可能希望在代理商上应用形状约束 - 也许我们希望代理人沿着路径保持特定的形状,或者我们希望代理商分散以最大程度地减少碰撞。我们可能还希望一定比例的代理移动到一个目的地,而其他代理人则移至另一个目的地,并以最佳方式进行此操作,即源点性作业应该是最佳的。为了实现这一目标,我们利用地球移动器从最佳运输的距离将代理分配到适当的位置,以便可以满足某些形状。该成本都以终端成本以及最佳控制问题的运行成本引入。
translated by 谷歌翻译