Recent advances in artificial intelligence (AI) have significantly intensified research in the geoscience and remote sensing (RS) field. AI algorithms, especially deep learning-based ones, have been developed and applied widely to RS data analysis. The successful application of AI covers almost all aspects of Earth observation (EO) missions, from low-level vision tasks like super-resolution, denoising, and inpainting, to high-level vision tasks like scene classification, object detection, and semantic segmentation. While AI techniques enable researchers to observe and understand the Earth more accurately, the vulnerability and uncertainty of AI models deserve further attention, considering that many geoscience and RS tasks are highly safety-critical. This paper reviews the current development of AI security in the geoscience and RS field, covering the following five important aspects: adversarial attack, backdoor attack, federated learning, uncertainty, and explainability. Moreover, the potential opportunities and trends are discussed to provide insights for future research. To the best of the authors' knowledge, this paper is the first attempt to provide a systematic review of AI security-related research in the geoscience and RS community. Available code and datasets are also listed in the paper to move this vibrant field of research forward.
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
作为一种常见的安全工具,已广泛应用可见的水印来保护数字图像的版权。但是,最近的作品表明,可见的水印可以通过DNN删除而不会损坏其宿主图像。这样的水印驱动技术对图像的所有权构成了巨大威胁。受到DNN在对抗扰动方面的脆弱性的启发,我们提出了一种新颖的防御机制,可以永久地通过对抗机器学习。从对手的角度来看,可以将盲水水印网络作为我们的目标模型提出。然后,我们实际上优化了对宿主图像上不可察觉的对抗扰动,以主动攻击水印网络,称为水印疫苗。具体而言,提出了两种类型的疫苗。破坏水印疫苗(DWV)在通过水印拆除网络后,诱导了与水印一起破坏宿主图像。相比之下,不可行的水印疫苗(IWV)以另一种方式试图保持水印不清除且仍然明显。广泛的实验证明了我们的DWV/IWV在防止水印去除方面的有效性,尤其是在各种水印去除网络上。
translated by 谷歌翻译
很少有课堂学习(FSCIL)着重于设计学习算法,这些学习算法可以不断地从几个样本中学习一系列新任务,而不会忘记旧任务。困难是,从新任务中进行一系列有限数据的培训会导致严重的过度拟合问题,并导致众所周知的灾难性遗忘问题。现有研究主要利用图像信息,例如存储以前任务的图像知识或限制分类器更新。但是,他们忽略了分析课堂标签的信息丰富且较少的嘈杂文本信息。在这项工作中,我们建议通过采用内存提示来利用标签文本信息。内存提示可以依次学习新数据,同时存储先前的知识。此外,为了优化内存提示而不破坏存储的知识,我们提出了基于刺激的训练策略。它根据图像嵌入刺激(即嵌入元素的分布)来优化内存提示。实验表明,我们提出的方法的表现优于所有先前的最新方法,从而大大减轻了灾难性的遗忘和过度拟合问题。
translated by 谷歌翻译
多对象跟踪(MOT)是现代高级驾驶员辅助系统(ADA)和自动驾驶(AD)系统的关键应用之一。 MOT的大多数解决方案都是基于随机矢量贝叶斯过滤器,例如Global最近的邻居(GNN)以及基于规则的启发轨道维护。随着随机有限集(RFS)理论的发展,最近已将RFS贝叶斯过滤器应用于ADA和AD Systems的MOT任务中。但是,由于计算成本和实施复杂性,它们在实际流量中的有用性是对疑问的。在本文中,据透露,具有基于规则的启发式轨道维护的GNN不足以在ADA和AD系统中基于激光雷达的MOT任务。通过系统地比较几个不同的基于对象过滤器的跟踪框架,包括传统的随机矢量贝叶斯滤波器,以及基于规则的启发式跟踪维护和RFS贝叶斯过滤器,可以说明这种判断。此外,提出了一个简单有效的跟踪器,即使用全局最近邻居(GNN-PMB)跟踪器的Poisson Multi-Bernoulli滤波器,建议用于基于激光雷达的MOT任务。拟议的GNN-PMB跟踪器在Nuscenes测试数据集中取得了竞争性的结果,并显示出优于其他最先进的LIDAR的跟踪性能,而Haver Holly Holling Trackers,Lidar和基于摄像机的基于摄像头的跟踪器。
translated by 谷歌翻译
现实世界的视觉搜索系统涉及具有不同计算和存储资源的多个平台上的部署。部署适合最小符合平台的统一模型会导致精度有限。预计将部署具有不同能力的模型,以适应资源约束,这要求这些模型提取的功能必须在度量空间中对齐。实现特征比对的方法称为“兼容学习”。现有的研究主要集中在一对一兼容的范式上,该范式在多个模型之间学习兼容性受到限制。我们提出了一个具有自我兼容性(SFSC)的可切换表示学习框架。 SFSC通过一个训练过程生成一系列具有不同能力的兼容子模型。子模型的优化面对梯度冲突,我们从大小和方向的角度来减轻它。我们通过不确定性估计动态调整子模型的优先级,以适当地将子模型合作。此外,预计有相互矛盾的梯度以避免相互干扰。 SFSC在评估的数据集上实现了最先进的性能。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
了解深度学习的理论研究非常重要。在这项工作中,我们发现了一个嵌入原则,即nn的损失格局“包含”浅NN损失景观的所有关键点。我们发现的关键工具是在这项工作中提出的关键起重操作员,该操作员将网络的任何关键点映射到任何更深层网络的关键流形,同时保留输出。该原则为许多广泛观察到的DNN行为提供了新的见解。关于深层网络的易于培训,我们表明可以将NN的局部最低限制为更深的NN的严格鞍点。关于批准归一化的加速度效应,我们证明了批处理的归一化有助于避免通过抑制层线性化来从较浅的NN中提起的临界歧管。我们还证明,增加训练数据会缩小临界歧管,这可能导致训练加速,如实验中所示。总体而言,我们对深度嵌入原则的发现发现了深度学习损失格局的深度层次结构,这为进一步研究DNN的深度作用提供了坚实的基础。
translated by 谷歌翻译
面对面对话期间的响应声是社会互动的关键要素,在心理学研究中得到了很好的建立。通过非言语信号响应扬声器的话语,语调或行为实时,听众展示了它们如何从事对话。在这项工作中,我们构建了响应声侦听器数据集(RLD),从公共资源收集的对话视频语料库,其中包括67个扬声器,76个听众,具有三种不同的态度。我们将响应声聆听头生成任务定义为具有运动的运动和表达式的非言语头的合成,包括扬声器的音频和视觉信号。与言语驱动的手势或谈话主管不同,我们在这项任务中介绍了更多的模态,希望有利于几个研究领域,包括人类互动,视频到视频转换,跨模型理解和生成。此外,我们释放了一种态度调节的听力头生成基线。项目页面:\ url {https://project.mhzhou.com/rld}。
translated by 谷歌翻译
行动预测旨在通过部分观察视频推断即将举行的人类行动,这是由于早期观察结果有限的信息有限。现有方法主要采用重建策略来处理此任务,期望从部分观察到完整视频来学习单个映射函数,以便于预测过程。在这项研究中,我们提出了来自两个新方面的部分视频查询生成“完整视频”功能调节的对抗性记忆网络(AMEMNet)。首先,键值结构化存储器发生器旨在将不同的部分视频存储为键存储器,并在具有门控机制和查询关注的值存储器中动态地写入完整视频。其次,我们开发了一个类感知判别者,以指导内存发生器在对抗训练时不仅提供现实,而且还提供鉴别的完整视频特征。通过RGB和光学流量的晚期融合给出了AMEMNET的最终预测结果。提供两个基准视频数据集,UCF-101和HMDB51的广泛实验结果,以证明所提出的AMEMNET模型在最先进的方法的有效性。
translated by 谷歌翻译